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内 容 简 介 


本 书 以 机 器 学 习 与 计算 统计 为 主题 背景 ， 专 门 讲述 如 何 挖掘 和 分 析 Web 上 的 数据 和 资源 ， 
如 何 分 析 用 户 体 验 、 市 场 营销 、 个 人 品味 等 诸多 信息 ， 并 得 出 有 用 的 结论 ， 通 过 复杂 的 算 
法 来 从 Web 网 站 获取 、 收 集 并 分 析 用 户 的 数据 和 反馈 信息 ， 以 便 创造 新 的 用 户 价值 和 商业 
价值 。 全 书 内 容 翔 实 ， 包括 协作 过 滤 技 术 (实现 关联 产品 推荐 功能 )、 集 群 数据 分 析 〔 在 大 
规模 数据 集中 发 掘 相似 的 数据 子 集 )、 搜索 引擎 核心 技术 CME, KI). 查询 引擎 、PageRank 
算法 等 )、 搜 索 海 量 信息 并 进行 分 析 统 计 得 出 结论 的 优化 算法 、 贝 叶 斯 过 滤 技 术 (垃圾 邮件 
过 滤 、 文 本 过 滤 )、 用 决策 树 技术 实现 预测 和 决策 建 模 功 能 、 社 交 网 络 的 信息 匹配 技术 、 机 
器 学 习 和 人 工 智能 应 用 等 。 

本 书 是 Web 开发 者 、 架 构 师 、 应 用 工程 师 等 的 绝 佳 选择 。 
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O'Reilly Media, Inc. 介 绍 


为 了 满足 读者 对 网 络 和 软件 技术 知识 的 迫切 需求 ， 世 界 著名 计算 机 图 书 出 版 
机 构 O'Reilly Media, Inc. 授权 电子 工业 出 版 社 , 翻译 出 版 一 批 该 公司 久 负 盛 
名 的 英文 经 典 技 术 专 著 。 


O’Reilly Media, Inc. 是 世界 上 在 Unix、X、Internet 和 其 他 开放 系统 图 书 领 域 
具有 领导 地 位 的 出 版 公司 ， 同 时 也 是 在 线 出 版 的 先锋 。 


从 最 畅销 的 《The Whole Internet User’s Guide & Catalog) (被 纽约 公共 图 书馆 
评 为 20 世 纪 最 重要 的 50 本 书 之 一 ) 到 GNN (最 早 的 Internet 门户 和 商业 网 站 ) , 
再 到 WebSite (第 一 个 桌面 PC 的 Web 服 务 器 软件 ) , O'Reilly Media, Inc. 
一 直 处 于 Internet 发 展 的 最 前 沿 。 


许多 书店 的 反馈 表明 ，O’Reilly Media, Inc. 是 最 稳定 的 计算 机 图 书 出 版 商 一 一 
每 一 本 书 都 一 版 再 版 。 与 大 多 数 计算 机 图 书 出 版 商 相 比 ，O’*Reilly Media, Inc. 
具有 深厚 的 计算 机 专业 背景 ， 这 使 得 OReilly Media, Inc. 形成 了 一 个 非常 不 
同 于 其 他 出 版 商 的 出 版 方针 。O’Reilly Media, Inc. 所 有 的 编辑 人 员 以 前 都 是 
EFR, 或 者 是 顶尖 级 的 技术 专家 。O'Reilly Media, Inc. 还 有 许多 固定 的 作者 
群体 一 一 他 们 本 身 是 相关 领域 的 技术 专家 、 咨 询 专 家 ， 而 现在 编写 著作 ， 
O’Reilly Media, Inc. 依 靠 他 们 及 时 地 推出 图 书 。 因为 O'Reilly Media, Inc. 紧 密 
地 与 计算 机 业界 联系 着 ， 所 以 O’Reilly Media, Inc. 知道 市 场 上 真正 需要 什么 
图 书 。 
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对 本 书 的 赞誉 
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“每 年 我 都 要 审阅 几 本 图 书 ， 自 然而 然 地 ， 在 工作 当中 我 阅读 了 大 量 的 书籍 。 不 得 不 承认 ， 
阅读 本 书 让 我 获得 了 以 前 从 未 有 过 的 、 相 当 愉 悦 的 阅读 体验 。 太 棒 了 ! 对 于 初学 这 些 算法 
的 开发 者 而 言 ， 我 想 不 出 有 比 这 本 书 更 好 的 选择 了 ， 而 对 于 像 我 这 样 学 过 AI 的 老 朽 而 言 ， 
我 也 想 不 出 还 有 什么 更 好 的 办 法 能 够 让 自己 重 温 这 些 知识 的 细节 。 


一 一 Dan Russell, HHR, Google 


“Toby 的 这 本 书 非 常 成 功 地 将 机 器 学 习 算法 这 一 复杂 的 议题 拆 分 成 了 一 个 个 既 实 用 又 易 懂 
的 例子 ， 我 们 可 以 直接 利用 这 些 例 子 来 分 析 当 前 网 络 上 的 社会 化 交互 作用 。 我 要 是 早 两 年 
读 过 这 本 书 ， 就 会 省 去 许多 宝贵 的 时 间 ， 也 不 至 于 走 那么 多 的 弯路 了 。 


—— Tim Wolters, CTO, Collective Intellect 


“本 书 获 得 了 巨大 的 成 功 ， 它 为 大 量 相 关 数 据 的 处 理 提 供 了 非常 丰富 的 计算 方法 。 更 重要 
的 是 ， 它 将 这 些 技术 应 用 到 了 互联 网 上 ， 而 不 是 在 一 个 个 披 此 孤立 的 数据 孤岛 中 寻求 价值 。 
如 果 你 是 在 为 互联 网 开发 应 用 ， 那 么 本 书 将 是 你 的 不 二 之 选 。” 


一 一 Paul Tyma， 高 级 软件 工程 师 ，Google 
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译 者 序 


还 记得 上 个 世纪 90 年 代 ， 当 大 学 校园 里 的 学 子 们 还 在 为 能 够 通过 对 等 网 在 不 同 计算 机 间 相 
互 发 送 消 息 而 兴奋 不 已 的 时 候 ， 互 联网 就 已 经 悄然 兴起 了 。 很 快 ， 和 人 人 们 就 从 CS 时 代 跨 入 
了 B/S 时 代 。 我 们 不 必 再 担心 每 次 都 要 安装 复杂 的 客户 端 程序 ， 只 要 有 浏 览 器 ， 就 会 有 绚 
丽 多 彩 的 舞台 。 然 而 随 着 时 间 的 推移 ， 人 们 又 开始 有 所 回归 ， 大 家 不 时 地 抱怨 : 为 什么 不 
能 让 浏览 器 像 客户 端 应 用 那样 具有 丰富 的 表现 ? 为 什么 每 次 打开 链接 都 要 傻 傻 地 等 着 空白 
页 面 消失 ? 直到 有 一 天 ，Tim O'Reilly 向 世人 宣告 了 一 个 新 的 概念 一 一 Web 2.0。 于 是 ， 忽 
如 一 夜 春风 来 , 大 大 小 小 的 Web 2.0 应 用 如 雨 后 春 算 般 不 断 涌现 , 互联 网 又 迈 向 了 一 个 新 的 
时 代 。 


Web 2.0 使 互联 网 变 得 异彩 纷呈 : 来 自 不 同 地 域 的 人 们 可 以 随时 修改 别人 写 过 的 文字 ， 这 就 
是 维基 ， 你 有 任何 想法 或 观点 都 可 以 尽情 地 表达 并 欢迎 别人 评论 ， 这 就 是 博客 ， 甚 至 连 网 
页 上 出 现 的 广告 也 都 是 与 我 们 当前 所 关注 的 内 容 密切 相关 ， 这 就 是 Google AdSense…… 所 
有 这 一 切 ， 都 带 给 我 们 不 同 于 以 往 的 全 新 感受 。 但 是 ， 这 些 应 用 究竟 是 怎样 实现 的 ? 隐藏 
在 它们 背后 的 原理 到 底 是 什么 ?怎样 让 我 们 的 Web 2.0 程序 变 得 更 加 聪明 , 更 加 贴心 呢 ? 译 
者 相信 ， 本 书 必定 能 够 为 大 家 逐一 解 开 荣 绕 在 心中 的 这 些 谜团 。 


本 书 以 Web 2.0 的 核心 价值 观 一 一 集体 智慧 作为 出 发 点 , 探讨 了 各 种 能 够 让 Web 2.0 程序 变 
得 更 为 智能 的 算法 及 其 应 用 。 这 些 算法 大 多 来 自 机 器 学 习 和 计算 统计 领域 ， 其 中 的 一 些 算 
法 非常 普及 ， 而 另 一 些 则 属于 目前 相当 前 沿 的 课题 。 它 们 包括 了 过 滤器 、 聚 类 算法 、 支 持 
向 量 机 、 遗 传 编程 、 优 化 技术 ， 以 及 非常 著名 的 PageRank 算法 ， 等 等 。 将 如 此 众多 的 优秀 
算法 有 效应 用 于 互联 网 领域 , 并 构造 出 具有 智能 特征 的 Web 2.0 应 用 , 应 该 是 本 书 的 一 大 亮 
点 ! 同时 , 这 也 使 本 书 有 别 于 以 往 我 们 所 见 到 过 的 任何 一 本 纯粹 介绍 Web 2.0 技术 与 概念 的 
书籍 。 不 仅 如 此 ， 本 书 还 提供 了 大 量 可 供 运行 的 示例 代码 ， 这 些 代码 具有 很 好 的 复 用 性 ， 
只 要 稍 加 修改 就 可 以 用 于 实际 的 应 用 系统 之 中 。 书 中 代码 还 大 量 使 用 了 许多 时 下 流行 的 开 
放 API， 这 些 API Æ Á F Yahoo!, eBay, FaceBook 等 众多 热门 的 Web 2.0 网 站 ， 这 使 得 本 
书 在 保有 实用 价值 的 同时 又 不 失 时 效 性 。 


BMRB AAS SE 300 多 页 ， 比 起 任何 一 本 大 部 头 的 技术 书籍 都 是 不 足 道 的 ， 但 作 
为 一 本 为 数 不 多 的 深入 讲解 列 藏 于 智能 Web 2.0 应 用 背后 的 算法 原理 的 书籍 , 其 深度 和 内 涵 
却 远 远 超 出 了 篇 幅 的 局 限 。 为 了 尽量 将 原 书 的 思想 内 涵 以 中 文 形式 尽数 表达 出 来 ， 作 为 译 
者 的 我 们 在 本 书 翻译 期 间 着 实 不 敢 懈 名。 在 将 书稿 提交 给 出 版 社 编辑 之 前 ， 我 们 对 每 一 章 
的 详 文 都 进行 了 不 少 于 两 遍 的 仔细 校对 。 作 为 补充 ， 中 文 版 还 随 附 了 翻译 期 间 译 者 所 用 的 
中 英文 术语 对 照 表 ， 和 希望 本 书 中 文 版 能 够 得 到 诸位 读者 的 认可 。 
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这 本 译作 的 完成 是 团队 协作 努力 的 结果 ， 这 包括 了 参与 翻译 、 校 审 ， 以 及 关注 和 支持 本 书 
翻译 的 所 有 人 。 感 谢 博文 视点 的 周 移 老 师 对 我 们 的 信任 ， 感 谢 本 书 的 前 后 两 位 责编 王 凡 馆 
与 王 晓 非 ， 尤 其 是 晓 非 ， 她 为 本 书 的 后 期 校 审 与 编辑 加 工 付出 了 辛劳 ， 我 们 的 合作 非常 愉 
快 。 此 外 ， 还 要 感谢 李 唯 一 ， 她 为 本 书 的 前 期 翻译 提供 了 诸多 帮助 。 


由 于 译 者 水 平 所 限 ， 译 文 难免 有 蚊 误 之 处 ， 欢 迎 读者 批评 指正 。 


为 了 便于 读者 阅读 理解 ， 特 在 此 附 上 本 书 翻译 过 程 中 整理 提取 的 中 英文 术语 对 照 表 。 下 表 
所 包含 的 多 为 专业 领域 的 技术 术语 。 其 中 部 分 术语 在 不 同 的 文献 中 往往 有 不 同 的 译 法 。 本 
书 为 了 统一 ， 选 择 了 比较 常见 的 译 靶 ， 如 clustering 可 译作 “ 聚 类 ”或 “聚集 "， 此 处 我 们 
选择 了 “ 聚 类 ”。 类 似 的 还 有 k-nearest neighbors、cross-product、dot-product， 等 等 。 


另 一 部 分 术语 , 虽 有 固定 译 法 , 但 我 们 结合 上 下 文 , 采用 了 更 为 贴切 的 翻译 。 如 computation- 
ally intensive 常 被 译 为 “计算 密集 的 "， 而 在 此 处 ,我 们 采用 “计算 量 很 大 的 "。 类 似 的 还 有 


data-intensive、solution、crawl，. 等 等 。 


此 外 还 有 一 部 分 术语 ， 在 当下 的 中 文 文献 中 并 没有 明确 的 公认 译 法 ， 因 而 我 们 在 书 中 给 出 
了 参考 翻译 , 以 供 大 家 商 榨 。 如 collective intelligence 被 译 为 “集体 智慧 ”, list comprehension 
被 译 为 “列表 推导 式 ”， 等 等 。 


表 0-1: 中 英文 术语 对 照 表 





英 文 ye OR BE Re 
clustering collective intelligence Eiki MH 
computationally intensive 计算 量 很 大 的 crawl (网 页 ) 检索 


cross-product 数据 量 很 大 的 
Eem Tr 

groups 群 组 外 部 回 指 链接 
kernel methods, kernel tricks K 一 均值 

k-nearest neighbors k- RAR 列表 推导 式 
multidimensional scaling 多 维 纺 放 | observations | 观测 数据 ， 观 测 什 
= aa [ininiy [wav re 
= CT [ea [aiena 


莫 映 EFW 
2008 年 9 月 于 北京 
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Preface 


无 论 是 有 意 还 是 无 意 ， 越 来 越 多 投身 于 互联 网 的 人 们 已 经 制造 出 了 相当 多 的 数据 ， 这 给 了 
我 们 无 数 漆 在 的 机 会 来 洞悉 用 户 体验 、 商 业 营 销 、 个 人 偏好 和 通常 所 谓 的 人 类 行为 (human 
behavior)。 本 书 向 大 家 介绍 了 一 个 新 兴 的 领域 ， 称 为 集体 智慧 (collective intelligence), ix 
一 领域 涵盖 了 诸多 方法 ， 借 助 这 些 方 法 我 们 可 以 从 众多 Web 站 点 处 (这 些 站 点 的 名 字 或 许 
你 曾经 有 所 耳闻 ) 提取 到 值得 关注 的 重要 数据 ， 借助 这 些 方法 我 们 还 可 以 从 使 用 自己 应 用 
程序 的 用 户 那 里 搜集 信息 ， 并 对 我 们 所 掌握 的 数据 进行 分 析 和 理解 。 


本 书 的 目的 是 要 带领 你 超越 以 数据 库 为 后 端的 简单 应 用 系统 ， 并 告诉 你 如 何 利用 自己 和 他 
人 每 天 搜集 到 的 信息 来 编写 更 为 智能 的 程序 。 


先决 条 件 


Prorequisites 


本 书 的 代码 示例 是 用 Python 语言 编写 的 ,因此 熟悉 Python 编程 将 会 有 助 于 你 对 算法 的 理解 ， 
不 过 笔者 给 出 了 所 有 算法 的 解释 说 明 ， 所 以 其 他 语言 的 程序 员 也 能 看 懂 。 对 于 已 经 了 解 了 
像 Ruby 或 Perl 这 样 高 级 语言 的 程序 员 , Python 代码 应 该 是 非常 容易 理解 的 。 本 书 的 目的 不 
是 要 作为 一 本 学 习 编 程 的 指导 书 ， 因 此 尤为 重要 的 一 点 在 于 ， 为 了 熟悉 基本 概念 ， 我 们 最 
好 已 编写 过 足够 多 的 代码 。 如 果 懂 得 递归 和 一 点 点 函数 式 编程 (functional programming) 的 
基本 概念 ， 那 么 我 们 就 会 发 觉 书 中 的 内 容 是 很 容易 理解 的 。 


本 书 并 不 假设 你 已 经 具备 了 任何 有 关 数 据 分 析 、 机 器 学 习 或 统计 学 方面 的 知识 。 笔 者 在 尝 
试 以 尽 可 能 浅显 易 懂 的 方式 来 解释 数学 概念 ， 不 过 具备 一 点 三 角 学 和 统计 学 的 基本 知识 将 
会 对 你 理解 算法 有 所 助 益 。 
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示例 风格 


an ee rir + 《 af tg 1 ate 
VIC OT EEE 


本 书 每 一 章节 的 代码 示例 都 是 以 一 种 教程 式 的 风格 编写 而 成 的 ， 它 鼓励 你 以 循序 渐进 的 方 
式 来 构建 应 用 程序 ， 并 对 算法 的 工作 原理 有 一 个 深入 的 理解 和 认识 。 大 多 数 情况 下 ， 写 完 
一 个 新 的 函数 或 方法 之 后 ， 我 们 会 在 一 个 交互 的 会 话 环境 里 使 用 它 ， 以 此 来 理解 算法 的 工 
作 原 理 。 通 常 算法 是 有 简单 的 变 体 的 ， 我 们 可 以 用 多 种 方式 对 其 进行 扩展 。 通 过 示例 讲解 
并 以 交互 的 方式 对 其 进行 测试 ， 我 们 对 算法 将 会 有 更 为 深入 的 理解 ， 从 而 可 以 对 其 进行 改 
造 ， 以 适应 自己 的 应 用 程序 。 


为 何 选择 Python 


lly Py RNY? 


尽管 书 中 的 算法 是 伴随 着 对 相关 公式 的 解释 ， 以 文字 形式 加 以 描述 的 ， 但 是 假如 有 针对 算 
法 和 示例 问题 的 实际 代码 ， 那 将 会 是 更 有 助 益 的 (而且 有 可 能 更 易于 理解 )。 本 书 中 的 所 有 
示例 代码 都 是 用 Python， 一 种 优秀 的 高 级 语言 编写 而 成 的 。 之 所 以 选择 Python 是 因为 它 有 
如 下 特性 。 
简练 
使 用 像 Python 这 样 的 动态 类 型 语言 编写 的 代码 往往 比 用 其 他 主流 语言 编写 而 成 的 代码 
更 加 简短 。 这 意味 着 ， 在 完成 示例 的 过 程 中 会 有 更 少 的 录入 工作 ， 而 且 这 也 意味 着 我 
们 将 更 容易 记 住 算法 并 真正 领会 算法 的 原理 。 


易于 阅读 
Python 不 时 被 人 们 指 为 “可 执行 的 伪 代 码 "。 虽 然 很 明显 这 是 一 种 夸大 之 词 , 但 是 它 表 
明 ， 大 多 数 有 经 验 的 程序 员 可 以 读 懂 Python 代码 并 领会 代码 所 要 表达 的 意图 。Python 
中 一 些 不 是 很 显 见 的 语言 要 素 将 会 在 后 面 的 “Python 技巧 ”一 节 中 加 以 解释 。 


易于 扩展 


Python 随 附 了 许多 标准 库 ， 这 些 库 涉 及 数学 函数 、XML (扩展 标记 语言 ) 解析 ， 以 及 
网 页 下 载 .本 书 中 用 到 的 非 标准 库 , 如 RSS (Really Simple Syndication) 解析 器 和 SQLite 
接口 ， 则 是 免费 的 ， 很 容易 下 载 、 安 装 和 使 用 。 


交互 性 
在 学 习 示例 的 过 程 中 ， 可 以 尝试 执行 我 们 编 好 的 函数 ， 而 无 须 为 此 专门 编写 额外 的 程 
序 ， 这 一 点 是 非常 有 价值 的 。Python 可 以 直接 从 命令 行 运行 程序 ， 它 还 有 交互 提示 ， 
允许 我 们 键入 函数 调用 、 创 建 对 象 ， 并 以 交互 的 形式 来 对 包 进 行 测 试 。 


多 范式 
Python 支持 面向 对 象 、 过 程式 和 函数 式 编 程 风 格 。 机 器 学 习 算 法 千差万别 ， 最 为 清晰 
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的 做 法 是 针对 不 同 算法 采用 不 同 的 范式 。 有 时 将 函数 作为 参数 传人 很 有 用 处 ， 而 有 时 
我 们 则 须要 在 对 象 中 捕获 状态 。 对 于 这 两 种 方式 ，Python 均 子 以 支持 。 
多 平台 和 免费 


Python 有 一 个 针对 所 有 主流 平台 的 单一 参考 实现 ， 并 且 它 对 所 有 平台 都 是 免费 的 。 本 
书 中 所 列 代 码 可 以 运行 于 Windows、Linux 和 Macintosh 环境 。 


Python 技巧 


对 于 有 兴趣 学 习 Python 编程 的 初学 者 而 言 , 笔者 推荐 大 家 阅读 由 Mark Lutz 与 David Ascher 
合 著 的 《Learning Python》(O"Reilly) ， 该 书 有 对 Python 的 全 面 论述 。 为 了 更 为 直观 地 表达 
算法 或 基础 性 概念 ， 笔 者 在 整 本 书 中 使 用 了 一 些 Python 特有 的 语法 ， 但 是 其 他 语言 的 程序 
AMZAH, Python 的 代码 相对 而 言 还 是 较为 容易 掌握 的 。 下 面 是 为 非 Python 程序 员 提 
供 的 一 份 快 速 概览 。 


列表 和 字典 的 构造 函数 
Python 有 一 组 不 错 的 基本 类 型 ， 其 中 有 两 种 类 型 在 本 书 中 被 大 量 使 用 ， 它 们 分 别 是 列表 和 
字典 。 列 表 是 由 一 组 任意 类 型 的 值 构 成 的 有 序列 表 ， 它 由 方 括号 构造 而 成 : 

number list=[1,2,3,4] 


string- iist=["a's Dy C's ‘d*] 
mixed list=['a', 3, 'c', 8] 


字典 是 由 一 组 名 值 对 构成 的 无 序 集合 ， 类 似 于 其 他 语言 中 的 hash map。 它 由 大 括号 构造 而 
成 

ages={'John':24, 'Sarah':28, 'Mike':31} 
可 以 通过 序列 名 后 跟 方 括号 的 形式 来 访问 列表 和 字典 中 的 元 素 : 


string list[2] # returns 'c' 
_ ages['Sarah'] # returns 28 


有 意义 的 空白 字符 


与 大 多 数 语 言 有 所 不 同 ，Python 实际 上 是 利用 代码 的 缩 进 来 定义 代码 块 的 。 请 看 下 列 代码 
片段 : 
if x==1: 
Srint: *x 16 1° 
print "Still in: if block" 
print ‘outside if block’ 
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因为 代码 是 被 缩 进 的 ， 所 以 语法 解释 器 知道 前 两 个 打印 语句 会 在 x 为 1 的 时 候 被 执行 。 缩 
进 可 以 是 任意 数量 的 空格 ， 只 要 它 是 常量 即 可 。 本 书 使 用 的 缩 进 是 两 个 空格 。 在 输入 代码 
的 时 候 ， 我 们 须要 注意 正确 拷贝 缩 进 。 


列表 推导 式 


列表 推导 式 (list comprehension) 是 一 种 方便 简洁 的 语法 形式 ， 我 们 可 以 利用 它 将 一 个 列表 
经 过 滤 后 转换 成 另 一 个 列表 ， 也 可 以 利用 它 将 函数 应 用 于 列表 中 的 元 素 。 列 表 推导 式 以 如 
下 形式 书写 : 

[表达 式 for 变量 in 列表 ] 
或 者 : 

[表达 式 for 变量 in 列表 if 条件 ] 


例如 ， 下 列 代码 ;: 
| 
print [v*10 for v in 11 if v>4] 


将 打印 输出 如 下 列表 : 


[50,60,70,80,90] 


本 书 中 频繁 地 使 用 了 列表 推导 式 ， 因 为 要 将 一 个 函数 应 用 于 整个 列表 ， 或 是 删除 不 需要 的 
列表 项 时 ， 这 种 表达 方法 非常 简练 。 列 表 推 导 式 的 另 一 种 常见 用 法 是 与 dict 构造 函数 结合 
在 一 起 使 用 ， 


Ll=[1, 2;,.3,4, 5,6, 7,8, 9} 
timesten=dict([(v,v*10) for v in 11])} 


上 述 代码 将 会 建立 一 个 字典 ， 以 原先 的 列表 作为 键 ， 以 每 个 列表 项 乘 以 10 作为 值 : 


{1:10,2:20,3:30,4:40,5:50,6:60,7:70,8:80,9:90} 


开放 的 API 


{sy 
> gk 
. J 


k 


用 于 将 集体 智慧 合成 起 来 的 算法 需要 来 自 许 多 用 户 的 数据 。 除 机 器 学 习 的 算法 外 ， 本 书 还 
论 及 了 许多 开放 的 Web APIs (应 用 编程 接口 )。 这 些 API 允许 我 们 通过 特殊 的 协议 对 来 自 相 
应 Web 站 点 的 数据 进行 访问 ， 我 们 可 以 编写 程序 将 数据 下 载 下 来 并 加 以 处 理 。 这 些 数据 通 
常 是 由 站 点 的 使 用 者 来 提供 的 ， 我 们 可 以 从 中 挖掘 出 新 的 内 洱 来 。 有 的 时 候 ， 我 们 可 以 用 
现成 的 Python 库 来 访问 这 些 API， 而 有 时 ， 如 果 没 有 现成 的 库 ， 那 么 最 为 直接 的 做 法 莫 过 
于 创建 自己 的 接口 来 访问 数据 ， 为 此 我 们 须要 利用 Python 提供 的 内 建 库 将 数据 下 载 下 来 ， 
并 对 XML 加 以 解析 。 


此 处 列 出 了 一 系列 提供 开放 API 的 Web 站 点 ， 我 们 将 在 本 书 中 陆续 接触 到 这 些 站 点 。 
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del.icio.us 
一 个 社会 型 书签 应 用 系统 (social bookmarking application), ， 其 开放 的 API 允许 你 根据 
标签 (tag) 或 特定 的 用 户 来 下 载 链接 。 


Kayak 


一 个 提供 API 的 旅游 网 站 ， 你 可 以 利用 API 在 自己 的 程序 中 集成 针对 航班 和 旅馆 的 搜 
索 。 


eBay 
一 个 提供 API 的 在 线 交易 站 点 ， 人 允许 你 查询 当前 正在 出 售 的 货品 。 


Hot or Not 


一 个 评分 与 交友 的 网 站 ， 提 供 API 对 人 员 进 行 搜索 ， 并 获取 其 评分 及 个 人 资料 。 


Akismet 

PA FHE OR ET RA API, 
通过 对 来 自 单一 源 的 数据 进行 处 理 ， 对 来 自 多 个 源 的 数据 进行 组 合 ， 甚 至 通过 将 外 部 信息 
与 自 有 系统 的 用 户 输入 信息 加 以 组 合 ， 我 们 可 以 构造 出 大 量 的 潜在 应 用 。 对 人 们 在 不 同 网 
站 以 各 种 不 同方 式 产生 的 数据 加 以 充分 利用 的 能 力 ， 便 是 构建 集体 智慧 的 一 个 基本 要 素 。 
如 果 你 想 寻 找 更 多 的 提供 开放 API 的 Web 站 点 ， 不 妨 从 访问 ProgrammableWeb 开始 
(http;/Avww.programmableweb.com ) 。 


各 章 概览 


Hyr i 
j the chapters 


本 书 的 每 个 算法 都 来 源 于 某 一 现实 的 问题 ,希望 这 些 问 题 能 够 很 容易 地 被 广大 读者 所 理解 。 
笔者 将 尝试 尽量 避 开 那些 要 求 大 量 领 域 知识 的 问题 ， 而 将 焦点 集中 在 那些 虽 不 失 复 杂 性 ， 
但 对 大 多 数 涉足 者 而 言 却 又 是 简单 易 懂 的 问题 上 。 
第 1 章 ， 集 体 智 慧 导 言 
本 章 解释 了 列 藏 于 机 器 学 习 背 后 的 概念 ， 并 解释 了 如 何 将 其 应 用 于 诸多 不 同 的 领域 ， 
以 及 如 何 利用 它 对 搜集 自 许多 不 同人 群 的 数据 进行 分 析 ， 并 从 中 得 出 新 的 结论 。 
第 2 章 ， 提 供 推荐 
本 章 介绍 协作 型 过 滤 (collaborative filtering) 技术 ， 这 项 技术 被 许多 在 线 零售 商用 来 
向 顾客 推荐 商品 或 媒体 。 本 章 中 有 一 节 介 绍 了 如 何 向 一 个 社会 型 书签 服务 网 站 的 用 户 
提供 推荐 链接 , 还 介绍 了 如 何 根据 MovieLens 所 提供 的 数据 集 构筑 一 个 影片 推荐 系统 。 
第 3 章 ， 发 现 群 组 
本 章 基 于 第 2 章 中 给 出 的 某 些 观点 ， 介 绍 了 两 种 不 同 的 聚 类 方法 ， 利 用 这 些 方法 ， 我 
们 可 以 在 一 个 大 数据 集中 自动 找 出 具有 相似 特征 的 群 组 。 本 章 还 演示 了 如 何 利用 聚 类 


算法 从 一 组 颇 受 欢迎 的 博客 之 中 寻找 群 组 ， 以 及 利用 聚 类 算法 根据 某 个 社会 型 网 站 的 
用 户 意 愿 去 寻找 群 组 。 
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第 4 章 ， 搜 索 与 排名 


本 章 描述 了 构成 一 个 搜索 引擎 的 各 个 不 同 组 成 部 分 ， 它 们 包括 : MEF (crawler), 
索引 程序 (indexer) ， 以 及 查询 引擎 (query engine)。 本 章 介绍 了 以 来 自 外 部 网 站 的 链 
接 信 息 为 依据 给 网 页 打分 的 PageRank 算法 , 还 向 你 展示 了 如 何 构 建 神经 网 络 , 借 此 获 
知 与 不 同 结果 相 关联 的 关键 词 。 

第 5 章 ， 优 化 
本 章 介绍 了 优化 算法 ， 设 计 这 些 算 法 的 目的 ， 是 为 了 对 问题 的 数 百 万 个 可 能 的 题解 进 
行 搜索 ， 并 从 中 选 出 最 优 解 来 。 书 中 利用 示例 演示 了 这 些 算法 的 各 种 不 同 用 法 ， 包括: 
为 一 群 去 往 相 同 地 点 的 旅客 寻找 最 佳 航班 ， 寻 求 为 学 生 安排 宿舍 的 最 佳 方案 ， 以 及 给 
出 交叉 线 数量 最 小 的 网 络 布 局 。 

ROR, 文档 过 滤 
本 章 向 读者 演示 了 贝 叶 斯 过 滤 ， 这 一 方法 被 广泛 应 用 于 许多 免费 的 和 商业 的 垃圾 信息 
过 滤 系 统 中 ， 用 于 根据 单词 类 型 及 出 现在 文档 中 的 其 他 特征 对 文档 进行 自动 分 类 。 我 
们 将 其 应 用 于 一 组 RSS 搜索 结果 ， 以 此 来 说 明 对 内 容 项 的 自动 分 类 过 程 。 


第 7 章 ， 决 策 树 建 模 


本 章 介绍 了 决策 树 ， 我 们 不 仅 将 它 作为 一 种 预测 方法 ， 而 且 还 用 它 来 为 决策 过 程 进 行 
建 模 。 本 章 中 出 现 的 第 一 棵 决策 树 是 根据 假想 的 服务 器 日 志 数 据 构 建 而 成 的 ， 我 们 利 
用 它 来 预测 用 户 是 否 有 可 能 成 为 付费 订户 (premium subscriber)。 本 章 的 另 一 个 例子 则 
使 用 了 来 自 真实 Web 站 点 的 数据 ， 用 以 对 住房 价格 和 来 自 Hot or Not 网 站 的 “热度 
(hotness) ”评价 进行 建 模 。 

第 8 章 ， 构 建 价 格 模型 
本 章 解决 的 是 数值 预测 问题 而 非 分 类 问题 ， 期 间 用 到 了 k- 最 近邻 技术 ， 并 且 还 用 到 了 
第 5 章 中 的 优化 算法 。 我 们 将 这 些 方法 与 eBay API 结合 在 一 起 构造 出 一 个 系统 ， 能 够 
根据 拍卖 品 的 一 组 属性 ， 预 出 出 最 终 的 拍卖 价格 。 

SIM, BURR: 核 方法 与 SVM 
本 章 向 读者 介绍 了 如 何 利用 支持 向 量 机 (support-vector machines) 对 在 线 约会 网 站 的 
用 户 进行 匹配 ， 以 及 如 何 将 其 用 于 针对 专业 交友 网 站 的 好 友信 息 搜索 。 支 持 向 量 机 是 
一 项 非常 高 阶 的 技术 ， 本 章 将 之 与 其 他 方法 进行 了 对 比 。 

第 10 章 ， 寻 找 独 立 特 征 


本 章 介绍 了 一 种 相对 较 新 的 技术 ， 称 为 非 负 检 阵 因 式 分 解 , (non-negative ee 
factorization) ， 我 们 利用 这 项 技术 在 数据 集中 寻找 独立 的 特征 。 对 许多 数据 集 而 言 

中 所 包含 的 内 容 都 是 可 以 借助 一 组 独立 特征 的 组 合 被 重新 构造 出 来 的 ， ee 
我 们 事先 不 知道 的 ， 非 负 和 矩阵 因 式 分 解 的 思路 便 是 要 寻找 这 些 特征 。 在 本 章 中 ， 我 们 
利用 一 组 新 闻 报 道 说 明了 该 项 技术 的 使 用 ， 期 间 ， 通 过 新 闻 故 事 来 寻找 其 中 的 主题 ， 
一 篇 给 定 的 新 闻 故 事 中 会 包含 一 个 或 多 个 这 样 的 主题 。 
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第 11 章 ， 智 能 进化 
本 章 介绍 了 遗传 编程 (genetic programming) 的 概念 ， 这 是 一 组 非常 复杂 的 技术 ， 它 超 
出 了 优化 的 范畴 。 并 且 ， 这 项 技术 实际 上 借鉴 了 进化 的 思想 ， 它 是 通过 自动 构造 算法 
的 方式 来 解决 特定 问题 的 。 我 们 通过 一 个 简单 的 游戏 来 说 明 这 项 技术 的 应 用 。 在 游戏 
中 ， 计 算 机 最 初 只 是 一 个 学 艺 不 精 的 初级 选手 ， 但 是 随 着 游戏 的 不 断 进行 ， 它 会 通过 
逐步 改进 其 所 拥有 的 代码 来 提升 自己 的 技能 。 

第 12 章 ， 算 法 总 结 
本 章 回顾 了 书 中 所 讲述 的 所 有 机 器 学 习 算法 及 统计 算法 ， 并 将 它们 与 一 组 人 为 设计 的 
问题 做 了 对 比 。 这 将 有 助 于 我 们 理解 算法 的 工作 原理 ， 并 形象 地 说 明 每 种 算法 划分 数 
据 的 方法 。 

附录 A， 第 三 方 函 数 库 
给 出 了 有 关 本 书 所 用 的 第 三 方 库 的 信息 ， 例 如 在 哪里 可 以 找到 这 些 第 三 方 库 ， 以 及 如 
何 进行 安装 。 

附录 B， 数 学 公式 
包含 了 一 部 分 数学 公式 及 其 说 明 ， 以 及 本 书 通 篇 引入 的 、 以 代码 形式 描述 的 诸多 数学 
概念 。 

位 于 每 章 末 尾 处 的 练习 ， 为 读者 提供 了 许多 相关 信息 ，、 借 此 我 们 可 以 对 算法 进行 扩展 并 使 

其 变 得 更 加 强大 。 


— 


本 书 使 用 了 下 列 排版 约定 ， 

普通 字体 
用 于 指示 菜单 标题 、 菜 单 选项 、 菜 单 按钮 ， 以 及 键盘 快捷 键 (诸如 Alt 和 Ctrl), 

斜体 (Italic) 
用 于 指示 新 的 术语 、URL、E-mail 地 址 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、 目 录 ， 以 及 
Unix 工具 。 

等 宽 字 体 (Courier New) 
用 于 指示 命令 (commands), 命令 选项 (options) 、 命令 开关 (switches), 变量 (variables) , 
WTE (attributes), fÉ (keys), eH (functions), 44 (types) 、 类 (classes), ATF 
空间 (namespaces) 、 方 法 (methods) 、 模 块 (modules) 、 成 员 属 性 (properties), 2% 
(parameters)、 值 (values), 对象 (objects) 、 事件 (events), 事件 处 理 器 (event handlers)、 
XML 标签 、HTML 标签 、 宏 、 文 件 内 容 或 命令 的 输出 结果 。 

等 宽 粗 体 (Courier New) 
用 于 显示 命令 或 其 他 应 该 由 用 户 手 工 逐 字 输 入 的 文本 。 

等 宽 斜 体 (Courier New) 
用 于 显示 可 替换 文本 ， 这 些 文本 应 该 被 替换 成 用 户 提 供 的 内 容 。 


该 图 标 代 表 了 提示 、 建 议 ， 或 者 一 般 性 注释 。 


Aes | vil 
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使 用 示例 代码 


Using Code Examples 


本 书 旨 在 帮助 你 完成 手头 的 工作 。 一 般 而 言 ， 你 可 以 在 自己 的 程序 和 文档 中 随意 使 用 书 中 
代码 。 除 非 原样 引用 大 量 的 代码 ， 否 则 你 无 须 征 得 我 们 的 许可 。 例 如 ， 在 编写 程序 时 引用 
了 本 书 的 若干 代码 片段 是 无 须 许可 的 。 而 销售 或 发 行 OReilly 图 书 的 示例 光盘 则 是 须要 许 
可 的 。 通 过 引用 书 中 内 容 及 示例 代码 的 方式 来 答疑 解难 是 无 须 许 可 的 。 而 将 书 中 的 大 量 示 
例 代码 加 入 到 你 的 产品 文档 中 则 是 须要 许可 的 。 


如 果 你 在 引用 时 注 明 出 处 ， 我 们 将 不 胜 感激 ， 但 是 这 并 非 必需 。 引 用 通常 包含 了 标题 、 作 
者 、 出 版 商 ， 以 及 ISBN 号 。 例 如 : “Programming Collective Intelligence by Toby Segaran. 
Copyright 2007 Toby Segaran, 978-0-596-52932-1” . 


如 果 你 发 现 自己 对 示例 代码 的 使 用 有 失 公 人 允 或 违反 了 上 述 条 款 ， 敬 请 通过 permissions@ 
oreilly.com 与 我 们 取得 联系 。 


如 何 联系 我 


ms g 
tact US 


tj TU 
sing | 
Privy tí i 


如 果 你 想 就 本 书 发 表 评论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 : 
O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
‘Sebastopol, CA 95472 
800-998-9938 (in the United States or Canada) 
707-829-0515 (international or local) 
707-829-0104 (fax) 


奥 莱 理 软件 (北京 ) ARA E] 
北京 市 西城 区 西直门 南大 街 2 号 RAKE C E 807 室 
邮政 编码 : 100055 
网 页 : Attp;/Avww.oreilly.com.cn 
E-mail: info@mail.oreilly.com.cn 


与 本 书 有 关 的 在 线 信 息 如 下 所 示 : 
http//www.oreilly.com/catalog/9780596529321 ( 原 书 ) 
http://www.oreilly.com.cn/book.php?bn=978-7-121-07539-1 (中 文 版 ) 


如 果 你 想 就 本 书 发 表 评 论 或 提问 技术 问题 ， 请 发 送 E-mail £; 
bookquestions@oreilly.com 
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北京 博文 视点 资讯 有 限 公司 (武汉 分 部 ) 
湖北 省 武汉 市 洪山 区 RKB 邮 科 院 路 特 1 号 湖北 信息 产业 科技 大 厦 1402 室 
邮政 编码 : 430074 
电话 : (027) 87690813 传真 ，(027) 87690595 
网 页 http://bv.csdn.net 
读者 服务 信箱 : 
reader@broadview.com.cn (读者 信箱 ) 
bvtougao@gmail.com (投稿 信箱 ) 


我 想 对 每 一 位 曾经 参与 本 书 编写 与 出 版 的 O'Reilly 工作 人 员 表 达 我 的 感谢 之 情 。 首 先 ， 我 
要 感谢 Nat Torkington， 是 他 告诉 我 写 书 这 个 想法 值得 一 试 ， 我 还 要 感谢 Mike Hendrickson 
和 Brian Jepson, EWN T PAIRWISE BH MIR S AS, ROLE Mary 
O’Brien, (hi Brian 的 编辑 工作 ， 并 且 总 是 能 够 缓解 我 对 工程 浩大 的 担忧 。 


在 出 版 团队 中 ， 我 要 感谢 Marlowe Shaeffer, Rob Romano, Jessamyn Read, Amy Thomson 
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且 总 能 对 我 无 暇 陪伴 他 们 表示 理解 : Andrea Matthews, Jeff Beene, Laura Miyakawa, Neil 
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关于 作者 


Toby Segaran 是 Genstruct 公司 的 软件 开发 主管 , 这 家 公司 涉足 计算 生物 领域 , 他 本 人 的 职 
责 是 设计 算法 , 并 利用 数据 控 据 技术 来 辅助 了 解 药品 机 理 。Toby Segaran 还 为 其 他 几 家 公司 
和 数 个 开源 项 目 服务 ， 帮 助 它们 从 收集 到 的 数据 当中 分 析 并 发 据 价 值 。 除 此 以 外 ，Toby 
Segaran 还 建立 了 几 个 免费 的 网 站 应 用 , 包括 流行 的 tasktoy 和 Lazybase, 他 非常 喜欢 滑雪 与 
品 酒 ， 其 博客 地 址 是 blog.kiwitobes.com， 现 居于 旧金山 。 


关于 封面 


本 书 封面 上 的 动物 是 王 企鹅 (Aptenodytes patagonicus). 。 尽 管 其 命名 与 巴 塔 哥 尼 亚 
(Patagonia) 地 区 有 关 ， 但 是 王 企鹅 却 并 非 产 于 南美 洲 ， 它 们 在 那里 的 最 后 一 片 栖息 地 早 
在 19 世纪 就 已 经 被 海 豹 狩猎 者 给 扒 毁 了 了。 如 今 ， 这 些 企 玖 分 布 在 次 南极 群岛 一 带 ， 如 爱 德 
华 王子 (Prince Edward), 克 罗 泽 特 (Crozet), 麦 格 理 (Macquarie) , 以 及 福 克 兰 群岛 (Falkland 
Islands) 等 地 。 它 们 居住 在 海滨 及 靠近 大 海 的 地 势 平坦 的 冰川 地 区 。 王 企鹅 完全 是 一 种 群居 
性 的 鸟 类 ， 在 它们 的 繁殖 地 ， 种 群 的 数量 多 达 1 万 ， 而 且 它 们 时 常 聚 集 在 一 起 饲养 幼 乌 。 


FERS MILI AT 76.2 厘米 (30 英寸 ) 高 ， 体 重 达 到 13.6 千克 (30 磅 )， 它 们 是 企 势 家族 中 
体型 最 大 的 种 群 之 仅 次 于 其 近邻 帝 企 殉 。 除 了 体型 以 外 ， 王 企鹅 还 有 一 个 主要 的 识 
别 特 征 ， 那 就 是 位 于 其 头 部 的 鲜 梅 色 斑点 ， 这 些 斑点 一 直 向 下 延伸 到 其 胸部 的 银白 色 羽 毛 
处 。 王 企 委 身 形 圆滑 ， 并 且 不 像 帝 企鹅 那样 只 会 在 陆地 上 跳跃 ， 它 们 还 可 以 奔跑 。 王 企 热 
很 习惯 于 海洋 生活 ， 它 们 以 鱼 类 和 乌贼 为 食 ， 并 且 可 以 向 下 六 到 213.36 米 (700 英尺 ) 的 
深度 ， 比 其 他 大 多 数 企鹅 潜 得 还 要 深 。 由 于 雄性 和 肉 性 在 体型 和 外 观 上 都 非常 接近 ， 因 此 
人 们 一 般 根据 它们 的 行为 迹象 (比如 交配 行为 ) 对 其 加 以 区 分 的 。 


王 企鹅 并 不 筑 梨 ， 相 反 ， 它 们 会 将 唯一 的 一 枚 卵 塞 和 人 肚皮 下 面 ， 并 放 在 两 脚 的 跷 上 。 没 有 
任何 其 他 鸟 类 的 繁殖 周期 会 比 王 企鹅 的 还 要 长 ， 这 些 企鹅 每 三 年 繁殖 两 次 ， 并 且 每 次 只 胃 
化 一 只 幼 鸟 。 王 企鹅 的 幼 鸟 身 型 肥胖 呈 褐 色 ， 浑 身 毛 萌 昔 的 ， 以 至 于 早期 的 探险 者 们 以 为 
这 是 与 王 企鹅 完 全 不 同 的 男 一 类 企鹅 , 并 将 其 称 为 “woolly penguins (HEH HAE)”. 
王 企 鹅 在 全 世界 范围 内 的 数量 有 200 万 对 ， 它 并 不 属于 濒危 物种 ， 世 界 自然 保护 联盟 已 将 
其 列 人 了 无 危 物 种 。 


本 书 封面 的 图 片 取 自 J.G Wood 的 《Animate Creation}, 
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第 1 章 
RKB SSS 


Introduction to Collective intelligence 


Netflix 是 一 家 在 线 的 DVD 租赁 公司 , 这 家 公司 允许 人 们 在 线 选 购 影片 , 并 由 公司 负责 送 货 
Eil: 另外，Netflix 还 会 根据 顾客 以 往 的 租 片 信息 为 其 提供 相应 的 推荐 。2006 年 底 ， 该 公 
司 宣布 将 100 万 美元 的 奖金 奖励 给 第 一 位 能 够 将 其 推荐 系统 的 精确 度 提升 至 10% 的 人 ,并 
且 只 要 该 项 竞赛 还 在 进行 ， 公 司 每 年 就 会 将 5 万 美元 的 进步 奖 授予 当时 的 头 名 状元 。 于 是 ， 
数 千 个 来 自 世 界 各 地 的 团队 蜂拥 而 至 ， 截 止 2007 年 4 月 为 止 ， 领先 的 团队 已 经 成 功 取得 了 
7% 的 成 绩 。Netflix siti Mth cesta nia acca 为 以 前 从 未 访问 过 
该 网 站 的 其 他 顾客 提供 推荐 _ 紫 够 再 次 光顾 网 站 。 从 Netflix 的 角度 而 言 ， 无 论 
对 推荐 系统 采取 任何 形式 | 为 它 带 来 大 笔 的 收入 。 

























搜索 引擎 公司 ooon so 年 ， 其 时 已 有 多 岗 索 引擎 公司 存在 ， 而 且 许多 人 
BUAH, KhA RRS RE Rh UL A , Google 的 创立 者 们 采用 了 
一 种 全 新 的 方法 对 搜索 结果 a + 一 它们 利 屠 工 上 b 站 点 上 的 链接 来 决定 哪些 
页 面 的 相关 性 最 大 。Google# A i par fie lt SFR 2004 年 ， 它 已 占据 
了 85% 的 web 搜索 市 场 人 Poway ape En i 10 大 富豪 之 列 。 

上 述 这 两 家 公司 有 何 提 站 > 处 呢 ? ent ope k 自 不 同人 群 的 数据 加 以 
组 合 ， 进 而 得 出 新 的 久光 ,并 创 造 出 新 的 ASPAR; eet yj ， 以 及 对 其 加 以 解释 的 
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上 面 提 到 的 , 仅仅 是 集体 智慧 (collective intelligence) 这 一 令 人 振奋 的 新 兴 领 域 中 少数 几 个 
典型 的 例子 ， 层 出 不 穷 的 新 服务 意味 着 每 天 都 会 有 新 的 商机 涌现 出 来 。 笔 者 相信 ， 理 解 机 
器 学 习 和 统计 方法 在 许多 不 同 领域 里 都 会 变 得 愈加 重要 ， 而 这 一 点 在 针对 海量 信息 的 解释 
和 组 织 方面 尤为 突出 (全 世界 的 人 们 正在 不 断 创造 这 些 信息 )。 


ei 
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人 们 使 用 集体 智慧 这 一 术语 已 有 十 多 年 之 久 ， 随 着 新 型 通信 技术 的 出 现 ， 这 一 术语 也 变 得 
日 趋 流行 和 重要 。 尽 管 这 样 的 表达 也 许 会 让 人 联想 到 群体 意识 或 超自然 现象 ， 但 当 技术 人 
员 使 用 这 一 词汇 时 ， 其 含义 通常 是 指 ， 为 了 创造 新 的 想法 ， 而 将 一 群 人 的 行为 、 偏 好 或 思 
想 组 合 在 一 起 。 


当然 ， 集 体 智慧 的 出 现 可 能 要 早 于 Internet。 为 了 从 全 无 关系 的 一 群 人 中 搜集 、 组 合 和 分 析 
数据 ， 我 们 不 一 定 要 借助 于 Web。 完 成 这 项 工作 的 一 种 最 为 基础 的 方法 ， 便 是 使 用 调查 问 
卷 或 普查 。 从 一 大 群 人 中 搜集 的 答案 可 以 使 我 们 得 出 关于 群 组 的 统计 结论 : 组 中 的 个 体 成 
员 将 会 被 忽视 。 从 独立 的 数据 提供 者 那里 得 出 新 的 结论 ， 是 集体 智慧 所 真正 关注 的 。 


这 里 有 一 个 众所周知 的 例子 ， 是 关于 金融 市 场 的 。 在 金融 市 场 里 ， 价 格 并 不 是 由 某 个 个 体 
或 某 种 协作 力量 所 决定 的 ， 它 是 由 许多 独立 个 体 的 交易 行为 所 共同 决定 的 ， 所 有 人 的 行为 
都 建立 在 这 样 一 种 信念 基础 之 上 : 他 们 相信 当前 的 交易 会 为 他 们 带 来 最 大 的 利益 。 尽 管 乍 
一 看 这 似乎 违背 直觉 ， 但 在 未 来 的 市 场 上 ， 大 量 的 参与 者 都 是 根据 他 们 对 未 来 价格 的 信心 
而 进行 契约 交易 的 ， 这 样 的 市 场 在 价格 预测 的 效果 方面 ， 往 往 被 认为 要 比 独立 进行 预测 的 
专家 们 表现 得 更 好 。 这 是 因为 ， 市 场 将 知识 、 经 验 和 成 百 上 千 人 的 意志 组 织 在 一 起 ， 形 成 
了 一 种 不 依赖 个 人 观点 的 预测 。 


尽管 寻求 集体 智慧 的 方法 在 Internet 之 前 就 已 经 存在 ， 但 自从 有 了 Intenet 之 后 ， 从 数 千 其 
至 数 百 万 网 民 中 御 集 信息 的 能 力 为 人 们 提供 了 许多 新 的 可 能 Ko MLAB EFF 
Intemet 来 购买 所 需 、 搜 索 信息 、 寻 求 娱乐 ， 以 及 架设 自 webs ty (one 
以 得 到 监控 ， 并 且 不 必要 求 用 户 放下 手头 的 工作 来 接受 询问 ， 而 可 以 借 由 监控 得 到 的 信息 
提取 出 有 价值 的 结论 。 有 大 量 的 方法 可 以 用 来 对 ; fi Gidda 
要 的 例子 ， 分 别 体 现 了 两 种 彼此 对 立 的 做 法 。 


> Wikipedia 是 一 个 在 线 的 百科 全 书 ， 它 完全 是 由 用 户 维护 的 。 任 何人 都 可 以 新 建 或 编辑 
网 站 上 的 任何 一 个 页 面 ， 同 时 会 有 为 数 不 多 的 几 名 管理 员 对 一 再 出 现 的 不 当 内 容 进 行 
监控 。Wikipedia 拥有 的 词 条 比 其 他 任何 百科 全 书 还 要 多 ， 尽 管 存在 一 些 恶 意 用 户 的 操 
作 ， 但 是 人 们 普遍 认为 ，Wikipedia 的 大 多 数 主题 都 是 准确 的 。 这 便 是 集体 智慧 的 一 
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个 例子 : 因为 每 一 篇 文章 都 有 大 量 人 员 在 维护 。 而 其 最 终 的 结果 ， 则 形成 了 一 个 任何 
单一 协作 团队 都 无 法 企及 的 大 型 百科 全 书 。Wikipedia 软件 并 没有 对 用 户 贡献 的 内 容 进 
行 特殊 的 智能 处 理 ， 它 只 跟踪 内 容 的 变更 情况 ， 并 显示 最 新 的 版 本 。 


。 ”前 文 提 及 的 Google, 是 世界 上 最 为 流行 的 Internet 搜索 引擎 , 也 是 第 一 个 根据 其 他 网 页 
对 当前 网 页 的 引用 数 多 少 来 评价 网 页 等 级 的 搜索 引擎 。 这 种 评价 等 级 的 方法 ， 搜 集 了 
数 以 千 计 的 人 对 某 一 页 面 的 评价 信息 ， 然 后 利用 这 些 信息 对 搜索 结果 进行 排序 。 这 是 
集体 智慧 的 一 个 非 同 寻常 的 例子 。Wikipedia 明确 邀请 网 站 的 用 户 提供 内 容 , 而 Google 
则 是 从 Web 内 容 的 创建 者 对 自己 网 站 的 操作 中 提取 重要 的 信息 ， 并 利用 这 些 信息 为 
Google 的 使 用 者 设 定 各 个 网 站 的 分 值 。 


虽然 Wikipedia 是 一 个 巨大 的 资源 库 ， 而 且 也 是 展现 集体 智慧 的 一 个 令 人 印象 深刻 的 例子 ， 
但 它 的 存在 很 大 程度 上 要 归功 于 提供 内 容 的 用 户 ， 而 非 软件 中 的 那些 智能 算法 。 本 书 的 焦 
点 并 不 在 于 提供 内 容 的 用 户 ， 而 在 于 算法 ， 这 其 中 就 包括 了 Google 的 PageRank Hik, i% 
算法 会 搜集 用 户 的 数据 ， 对 数据 进行 计算 分 析 ， 并 从 中 创造 出 可 以 增强 用 户 体验 的 新 信息 。 
在 获得 的 这 些 数据 当中 ， 有 一 部 分 是 明确 搜集 而 来 的 ， 比 如 向 用 户 询问 与 评价 网 页 级 别 相 
关 的 问题 。 另 一 部 分 则 是 偶然 搜集 得 到 的 ， 比 如 观察 用 户 的 购买 行为 。 对 于 这 两 种 情况 ， 
重要 的 不 仅 是 搜集 和 显示 信息 ， 还 包括 以 一 种 智能 化 的 方式 对 这 些 信 息 加 以 处 理 ， 并 产生 
出 新 的 信息 来 。 


本 书 将 告诉 你 如 何 利用 开放 的 APL 来 搜集 数据 ， 间 时 还 会 讨论 到 各 种 机 器 学 习 算法 和 统计 
方法 。 将 二 者 结合 起 来 ， 就 可 以 借助 集体 智慧 的 相关 方法 ， 对 由 自己 编写 的 应 用 程序 搜集 
得 到 的 数据 进行 分 析 ， 同 时 ， 也 可 以 从 其 他 地 方 搜集 数据 ， 并 对 数据 进行 试验 。 


什么 是 机 器 学 习 


What Is Machine Learning? 


机 器 学 习 是 人 工 智能 (AI，artificial intelligence) 领域 中 与 算法 相关 的 一 个 子 域 ， 它 允许 计 
算 机 不 断 地 进行 学 习 。 大 多 数 情况 下 ， 这 相当 于 将 一 组 数据 传递 给 算法 ， 并 由 算法 推断 出 
与 这 些 数据 的 属性 相关 的 信息 一 一 借助 这 些 信 息 ， 算 法 就 能 够 预测 出 未 来 有 可 能 会 出 现 的 
其 他 数据 。 这 种 预测 是 完全 有 可 能 的 ， 因 为 几乎 所 有 的 非 随机 数据 中 ， 都 会 包含 这 样 或 那 
样 的 “模式 (patterns)"， 这 些 模 式 的 存在 使 机 器 得 以 据 此 进行 归纳 。 为 了 实现 归纳 ， 机 器 
会 利用 它 所 认定 的 出 现 于 数据 中 的 重要 特征 对 数据 进行 “训练 "， 并 借 此 得 到 一 个 模型 。 


为 了 理解 模型 得 到 的 过 程 ， 我 们 来 看 另外 一 个 复杂 领域 一 一 电子 邮件 过 滤 中 的 一 个 简单 例 
子 。 假 定 我 们 收 到 了 大 量 包 含 “online pharmacy” 单 词 的 垃圾 邮件 。 对 人 而 言 ， 我 们 可 以 很 
轻松 地 识别 出 其 中 的 模式 ， 并 快速 确 知 任何 含有 “online pharmacy” 单 词 的 信息 都 是 垃圾 邮 
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件 ， 应 该 将 其 直接 移 到 垃圾 箱 中 。 这 就 是 归纳 一 一 事实 上 ， 我 们 已 经 建立 起 了 一 个 关于 垃 
圾 邮件 的 智力 模型 。 当 我 们 将 多 条 这 样 的 信息 报告 为 垃圾 邮件 之 后 ， 专 门 设计 用 以 过 滤 垃 
圾 邮件 的 机 器 学 习 算 法 应 该 有 能 力 做 出 同样 的 归纳 来 。 


有 许多 不 同 的 机 器 学 习 算法 ， 所 有 算法 都 各 有 所 长 ， 适 应 于 不 同类 型 的 问题 。 有 些 算法 ， 
比如 决策 树 ， 非 常 的 直观 ， 通 过 眼睛 观察 就 可 以 完全 理解 机 器 执行 的 推导 过 程 。 男 有 一 些 
算法 ， 比 如 神经 网 络 ， 则 像 一 个 黑 合 ， 它 们 虽然 也 给 出 最 终 的 结果 ， 但 通常 要 复 现 强 含 在 
这 些 结果 背后 的 推导 过 程 则 是 非常 困难 的 。 


许多 机 器 学 习 算法 都 很 倚 仗 数学 和 统计 学 。 根 据 笔者 早 些 时 候 给 出 的 定义 ， 我 们 甚至 可 以 
认为 ， 简 单 的 相关 性 分 析 和 回归 都 是 机 器 学 习 的 基本 形式 。 本 书 并 没有 假定 读者 具备 许多 
统计 学 方面 的 知识 ， 所 以 笔者 会 尝试 尽 可 能 直观 地 解释 所 用 到 的 统计 学 知识 。 


机 器 学 习 的 局 限 


Limits of Machine Learning 


机 器 学 习 并 非 没 有 缺点 。 机 器 学 习 算法 受 限 于 其 在 大 量 模式 之 上 的 归纳 能 力 ， 而 一 个 模式 
如 果 不 同 于 算法 先前 所 曾 见 到 过 的 任何 其 他 模式 ， 那 么 它 很 有 可 能 会 被 “误解 “。 人 类 拥有 
大 量 的 文化 知识 及 经 验 可 以 借鉴 :不 仅 如 此 ， 人 们 还 具备 一 种 非凡 的 能 力 ， 即 : 当 对 新 的 
信息 进行 决策 时 ， 人 们 能 够 从 中 识别 出 相似 的 信息 来 ， 而 机 器 学 习 方法 却 只 能 凭借 已 经 见 
过 的 数据 进行 归纳 ， 而 且 归 纳 的 方式 受到 很 大 的 限制 。 


我 们 将 在 本 书 中 见 到 的 垃圾 邮件 过 滤 方 法 ， 是 以 单词 或 单词 组 合 的 出 现 为 依据 的 ， 至 于 这 
些 单词 的 含义 及 句 式 结构 ， 则 根本 未 于 考虑 。 尽 管 在 理论 上 ， 构 造 一 个 考虑 语法 的 算法 是 
可 行 的， 但 在 现实 中 却 很 少 这 样 做 ， 这 是 因为 为 此 付出 的 努力 与 算法 的 改进 相 比 很 不 成 比 
例 。 理 解 单词 的 含义 及 单词 与 个 人 生活 的 相关 性 所 要 求 掌 握 的 信息 ， 远 比 垃圾 邮件 过 滤 算 
法 中 所 能 访问 到 的 现 有 信息 还 要 多 。 


另外 ， 尽 管 在 解决 问题 的 倾向 性 上 各 有 不 同 ， 但 是 所 有 机 器 学 习 算法 都 有 过 度 归 纳 的 可 能 
性 。 就 如 生活 中 的 大 多 数 事情 一 样 ， 基 于 少数 示例 的 强 归纳 很 少 是 完全 精确 的 。 我 们 的 确 
有 可 能 会 收 到 友人 寄 来 的 一 封 重要 邮件 ， 里 面包 含 “online pharmacy” 的 字样 。 在 这 种 情况 
下 ， 我 们 须要 告诉 算法 这 不 是 垃圾 邮件 ， 或 许 算法 可 以 作出 判断 ， 将 来 自 某 位 好 友 的 邮件 
判定 为 可 以 接收 。 究 其 本 质 ， 许 多 机 器 学 习 算法 在 新 信息 到 来 之 时 都 是 能 够 持续 进行 学 习 
的 。 
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真实 生活 中 的 例子 


当前 Internet 上 有 大 量 站 点 正在 不 断 地 从 广大 用 户 当 中 搜集 数据 , 并 利用 机 器 学 习 和 统计 方 
法 从 中 获 益 。Google 是 其 中 的 佼佼 者 一 一 它 不 仅 可 以 利用 Web 链接 对 网 页 进行 排名 ， 而 且 
当 其 广告 被 不 同 的 用 户 点 击 时 ， 它 会 持续 搜集 信息 ， 这 使 得 Google 可 以 更 加 有 效 地 进行 广 
告 定位 。 在 第 4 章 中 ， 我 们 将 了 解 到 搜索 引擎 和 PageRank 算法 ， 这 是 Google 排名 系统 的 
重要 组 成 部 分 。 


其 他 的 例子 还 包括 带 有 推荐 系统 的 Web 站 点 。 如 Amazon 和 Netflix 这 样 的 站 点 ， 它 们 利用 
人 们 的 购买 或 租赁 信息 来 确定 人 或 物品 的 相似 程度 ， 然 后 再 根据 买卖 历史 来 给 出 推荐 。 另 
有 一 些 站 点 ,比如 Pandora 和 Lastftm， 则 可 以 利用 我 们 对 不 同 乐 队 和 软 曲 的 评价 来 建立 定 
制 的 广播 电台 ， 其 中 包含 了 网 站 认为 我 们 会 喜欢 的 音乐 。 第 2 章 将 会 讨论 构建 推荐 系统 的 
方法 。 

市 场 预测 也 是 集体 智慧 的 一 种 形式 。 这 其 中 最 为 有 名 的 一 个 例子 莫 过 于 Hollywood Stock 
Exchange (httpyhsx.com)， 在 那里 人 们 可 以 进行 涉及 影片 和 影星 的 模拟 股票 交易 。 我 们 可 
以 按照 影片 的 当前 价格 买卖 股票 ， 其 对 应 的 价值 相当 于 电影 实际 首次 票房 收入 的 百 万 分 之 
一 。 因 为 价格 是 通过 交易 行为 来 设 定 的 ， 所 以 价值 不 由 任何 一 个 个 体 所 决定 ， 而 是 由 群体 
的 行为 来 确定 的 ， 股 票 的 当前 价格 可 以 看 作 是 整个 群体 对 电影 票房 收入 数字 的 预测 。 通 党 
而 言 ， 由 Hollywood Stock Exchange 所 给 出 的 预测 往往 要 优 于 某 位 专家 所 给 出 的 预测 。 


某 些 交友 网 站 ， 比 如 eHarmony， 利 用 从 参与 者 那里 搜集 而 来 的 信息 确定 交友 的 最 佳 配对 。 
尽管 这 些 公司 对 他 们 所 采用 的 匹配 算法 守 口 如 瓶 ， 但 是 任何 一 种 成 功 的 匹配 算法 很 可 能 都 
会 涉及 一 个 持续 不 断 的 求 值 过 程 一 一 算法 会 反复 判断 选 定 的 匹配 成 功 与 否 。 


学 习 型 算法 的 其 他 用 途 


本 书 所 介绍 的 并 不 是 什么 新 方法 , 尽管 这 些 例子 都 是 在 讨论 基于 Internet 的 集体 智慧 的 相关 
问题 , 但 是 掌握 机 器 学 习 算法 的 知识 对 于 许多 其 他 领域 的 软件 开发 者 而 言 也 是 很 有 助 益 的 。 
尤其 是 在 须要 处 理 大 量 数 据 的 领域 里 ,我 们 可 以 从 中 发 抉 出 值得 关注 的 如 下 各 种 模式 。 


生物 工艺 学 


人 类 在 测序 技术 和 筛选 技术 (sequencing and screening technology) 上 的 进步 已 经 创造 
出 了 许多 不 同 种 类 的 海量 数据 ， 比 如 DNA 序列 、 蛋 白质 结构 、 化 合 物 筛 选 及 RNA 表 
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达 。 为 了 找到 能 进一步 理解 生物 进程 的 模式 ， 机 器 学 习 技 术 被 广泛 应 用 于 所 有 这 些 类 
型 的 数据 之 中 。 


金融 欺诈 侦 测 


信用 卡 公司 一 直 都 在 寻找 侦 测 交易 是 否 存在 欺诈 行为 的 新 方法 。 最 终 ， 他 们 使 用 了 像 
神经 网 络 和 归纳 逻辑 这 样 的 技术 ， 对 交易 行为 进行 检验 ， 并 捕获 不 正当 的 使 用 方法 。 


机 器 视觉 


出 于 军事 或 监控 的 目的 ， 从 摄像 机 中 进行 图 片 解析 是 一 个 活跃 的 研究 领域 。 许 多 机 颖 
学 习 技术 被 用 来 自动 侦 测 入 侵 者 、 辨 别 车 辆 ， 或 者 识别 人 脸 。 尤 其 值得 注意 的 是 无 人 
监控 技术 的 使 用 ， 比 如 能 从 大 数据 集中 发 现 有 趣 特征 的 独立 组 元 分 析 技术 。 


产品 市 场 化 


长 期 以 来 , 对 人 口 统计 资料 及 其 发 展 趋 势 的 理解 被 认为 是 一 种 艺术 而 不 是 科学 。 最 近 ， 
人 们 在 消费 者 数据 搜集 能 力 方面 的 增长 ， 为 机 器 学 习 技术 打开 了 机 会 之 门 ， 比 如 聚 类 
方法 ， 就 能 很 好 地 理解 存在 于 市 场 中 的 自然 划分 ， 并 能 更 好 地 预测 未 来 的 趋势 。 


供应 链 优化 


许多 企业 通过 其 供应 链 的 有 效 运行 及 精确 预测 不 同 区 域 的 产品 需求 ， 来 节省 数 以 百 万 
计 的 成 本 投入 。 构 造 供应 链 的 方法 非常 多 ， 影 响 需 求 的 带 在 因素 也 非常 多 。 优 化 和 学 
习 技 术 时 常 被 用 来 分 析 这 些 数据 集 。 


股票 市 场 分 析 


自从 有 了 股票 市 场 ， 人 们 就 一 直 在 尝试 利用 数学 方法 来 赚 取 更 多 的 钱 。 随 着 参与 股市 
的 股民 变 得 越 来 越 有 经 验 ， 对 大 量 数据 进行 分 析 并 采用 先进 技术 来 侦 测 模式 已 经 变 得 
很 有 必要 了 。 


国家 安全 


全 世界 的 政府 机 构 都 在 搜集 海量 信息 ， 对 这 些 数据 的 分 析 过 程 要 求 计 算 机 对 模式 进行 
检测 ， 并 将 之 与 潜在 的 威胁 联系 起 来 。 


上 述 这 些 仅仅 是 人 们 现在 大 量 使 用 机 器 学 习 的 典型 个 案 。 既 然 有 越 来 越 多 的 信息 被 制造 出 
来 已 是 大 势 所 趋 ， 那么 有 越 来 越 多 的 领域 将 依赖 于 机 器 学 习 和 统计 技术 并 不 是 没有 可 能 的 ， 
因为 信息 扩张 的 规模 已 经 超出 了 人 们 利用 旧 有 方法 进行 处 理 的 能 力 。 


每 天 可 以 获得 的 新 信息 有 多 少 ， 显 然 就 会 有 多 少 更 多 的 可 能 性 。 一 旦 你 掌握 了 一 点 机 器 学 
习 的 算法 ， 你 就 会 发 现 它们 的 应 用 随处 可 见 。 
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第 2 章 
提供 推荐 


Making Recommendations 


为 了 开始 集体 智慧 之 旅 ， 本 章 即 将 告诉 大 家 ， 如 何 根 据 群 体 偏好 来 为 人 们 提供 推荐 。 有 许 
多 针对 于 此 的 应 用 ， 如 : 在 线 购 物 中 的 商品 推荐 、 热 门 网 站 的 推荐 ， 以 及 帮助 人 们 寻找 音 
乐 和 影片 的 应 用 。 本 章 将 告诉 你 如 何 构筑 一 个 系统 ， 用 以 寻找 具有 相同 品味 的 人 ， 并 根据 
他 人 的 喜好 自动 给 出 推荐 。 


也 许 在 使 用 如 Amazon 这 样 的 在 线 购物 网 站 之 前 , 你 已 经 接触 过 某 些 推荐 类 引擎 了 。 Amazon 
会 对 所 有 购物 者 的 购买 习惯 进行 追踪 ， 并 在 你 登录 网 站 时 ， 利 用 这 些 信息 将 你 可 能 会 喜欢 
的 商品 推荐 给 你 。 Amazon $a lE 荐 你 可 能 会 喜欢 的 影片 ， 即 便 你 此 前 也 许 只 从 
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趣 的 其 他 链接 。 CD 
从 这 些 例子 中 ， 你 可 以 看 到 总 们 能 A at 兴趣 偏好 。 有 时 候 ， 这 
些 数据 可 能 来 自 于 人 们 购物 乓 物品 ， 以 ter JaN se. 这 些 评价 可 能 会 被 表 


达成 “是 / 否 ”之 类 的 接 堵 ? ak, RAE ton Y 我 们 将 对 这 些 形 色 各 
异 的 表达 方法 进行 考 覃 a eae. 处 再 同时 还 将 建立 几 个 涉及 
电影 评分 和 社会 化 书 久 finite ee Res 
















SE J 


fhe any E at $ A I i 


tT 
ME AHO 一些 ， 通 过 观察 这 
Bm TM, “isu 


Ú % ty 4 
我 们 知道 ， 要 想 了 puro 
向 朋友 们 询问 。 我 从 知道 ，: 
些 人 是 否 通常 也 和 我 


ww ai bbt. com DOOO000 


择 越 来 越 多 ， 要 想 通 过 询问 一 小 群 人 来 确定 我 们 想 要 的 东西 ， 将 会 变 得 越 来 越 不 切实 际 ， 
因为 他 们 可 能 并 不 了 解 所 有 的 选择 。 这 就 是 为 什么 人 们 要 发 展 出 一 套 被 称 为 协作 型 过 滤 
(collaborative filtering) 的 技术 。 


一 个 协作 型 过 滤 算 法 通常 的 做 法 是 对 一 大 群 人 进行 搜索 ， 并 从 中 找 出 与 我 们 品味 相近 的 一 
小 群 人 。 算 法 会 对 这 些 人 所 偏爱 的 其 他 内 容 进 行 考查 ， 并 将 它们 组 合 起 来 构造 出 一 个 经 过 
排名 的 推荐 列表 。 有 许多 不 同 的 方法 可 以 帮助 我 们 确定 哪些 人 与 自己 的 品味 相近 ， 并 将 他 
们 的 选择 组 合成 列表 。 本 章 将 择 其 一 二 详 加 介绍 。 


RF.: “WNR” Æ David Goldberg 1992 年 在 施乐 帕克 研究 中 
心 (Xerox PARC) 的 一 篇 题 为 《Using collaborative filtering to weave 
an information tapestry》 的 论文 中 首次 使 用 的 。 他 设计 了 一 个 名 叫 
Tapestry 的 系统 ， 该 系统 允许 人 们 根据 自己 对 文档 感 兴趣 的 程度 为 
其 添加 标注 ， 并 利用 这 一 信息 为 他 人 进行 文档 过 滤 。 


时 下 ， 有 数 以 百 计 的 Web 站 点 都 在 采用 这 样 那样 的 协作 型 过 滤 算 
法 ,这些 算法 所 要 处 理 的 内 容 涉及 电影 、 音 乐 、 书 籍 、 交 友 、 购 物 、 
网 站 、 播 客服 务 (podcast) 、 文 章 ， 甚 至 还 有 幽默 笑话 。 





搜集 偏好 


l } A Re 
FU 


我 们 要 做 的 第 一 件 事情 ， 是 寻找 一 种 表达 不 同人 及 其 偏好 的 方法 。 在 Python 中 ， 达 到 这 一 
目的 的 一 种 非常 简单 的 方法 是 使 用 一 个 败 套 的 字典 。 如 果 你 打算 运行 本 节 中 的 示例 ， 请 新 
建 一 个 名 为 recommendations.py 的 文件 ， 并 加 入 如 下 代码 来 构造 一 个 数据 集 : 


# 一 个 涉及 影评 痢 及 其 对 岂 部 影片 评分 情况 的 字典 


critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes ona Plane': 3.5, 
‘Just My Luck': 3.0, ‘Superman Returns': 3.5, ‘You, Me and Dupree': 2.5, 
'The Night Listener': 3.0), 

‘Gene Seymour': {'Lady in the Water': 3.0, ‘Snakes on a Plane': 3.5, 
‘Just My Luck': 1.5, ‘Superman Returns': 5.0, 'The Night Listener': 3.0, 


‘You, Me and Dupree': 3.5}, 

‘Michael Phillips': {‘*Lady‘in the Water': 2.5, 'Snakes on a Plane': 3.0, 
‘Superman Returns‘: 3.5, ‘The Night Listener': 4.0}, 

‘Claudia Puig': {'Snakes on a Plane’: 3.5, ‘Just My Luck': 3.0, 

‘The Night Listener’: 4.5, "Superman Returns': 4.0, 

‘You, Me and Dupree': 2.5}, 

‘Mick LaSalle': {'Lady in the Water': 3.0, ‘Snakes on a Plane': 4.0, 
‘Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3. 
‘You, Me and Dupree': 2.0}, 

‘Jack Matthews': {'Lady in the Water’: 3.0, ‘Snakes on a Plane': 4.0, 
'The Night Listener': 3.0, ‘Superman Returns’: 5.0, ‘You, Me and Dupree': 3.5}, 
‘Toby': {'Snakes on a Plane’:4.5, ‘You, Me and Dupree’ :1.0, ‘Superman Returns' :4.0}} 


0, 
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本 章 中 , 我 们 将 以 交互 方式 使 用 Python ， 因 此 应 该 先 将 recommendations.py 保存 起 来 ， 以便 
Python 的 交互 解释 程序 能 够 读 取 到 它 。 我 们 也 可 以 将 文件 保存 在 python/Lib ARF, Pit 
最 为 简单 的 做 法 ， 是 在 与 我 们 保存 文件 的 同一 目录 下 启动 Python 解释 程序 。 


上 述 字 典 使 用 从 1 到 5 的 评分 ， 以 此 来 体现 包括 本 人 在 内 的 每 位 影评 者 对 某 一 给 定 影片 的 
喜爱 程度 。 不 管 偏好 是 如 何 表达 的 ， 我 们 需要 一 种 方法 来 将 它们 对 应 到 数字 。 假 如 我 们 正 
在 架设 一 个 购物 网 站 ， 不 妨 用 数字 "1 来 代表 有 人 过 去 曾 购买 过 某 件 商品 ， 用 数字 0 来 代表 
未 曾 购买 过 任何 商品 。 而 对 于 一 个 新 闻 故 事 的 投票 网 站 ， 我 们 可 以 分 别 用 数字 -1、0 和 1 来 
Kik “PEK, ABR". “WK”, mz 2-1 所 示 。 


表 2-1: 从 用 户 行为 到 相应 评价 值 的 可 能 对 应 关系 





对 于 算法 试验 和 范例 演示 而 言 ， 使 用 字典 是 很 方便 的 。 我 们 可 以 很 容易 地 对 字典 进行 查询 
和 修改 。 请 启动 Python 的 解释 程序 ， 并 试 着 输入 下 列 几 行 命令 : 
c:\code\collective\chapter2> python 
Python 2.4.1 (#65, Mar 30 2005, 09:13:57) [MSC v.1310 32 bit (Intel)] on win32 
Type "help", "copyright", "credits" or “license” for more information. 
>>> 
>> from recommendations import critics 
>> critics['Lisa Rose']['Lady in the Water'] 
2:5 
>> critics['Toby']['Snakes on a Plane']=4.5 
>> critics['Toby'] 
{'Snakes on a Plane':4.5, ‘Superman Returns': 4.0, ‘You, Me and Dupree':1.0} 


尽管 可 以 将 相当 数量 的 人 员 偏好 信息 置 于 字典 内 〈 即 内 存 中 )， 但 对 于 一 个 规模 巨大 的 数据 
集 而 言 ， 也 许 我 们 还 是 会 希望 将 其 存 人 数据 库 中 。 


寻找 相近 的 用 户 


Finding Similar Users 


搜集 完 人 们 的 偏好 数据 之 后 ， 我 们 须要 有 一 种 方法 来 确定 人 们 在 品味 方面 的 相似 程度 ， 为 
此 ， 我 们 可 以 将 每 个 人 与 所 有 其 他 人 进行 对 比 ， 并 计算 他 们 的 相似 度 评价 值 。 有 若干 种 方 
法 可 以 达到 此 目的 ， 本 节 中 我 们 将 介绍 两 套 计算 相似 度 评 价值 的 体系 : 欧 几 里 德 距离 和 皮 
尔 逊 相关 度 。 
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欧 几 里 德 距离 评价 


Fuclidean Distance Score 


计算 相似 度 评价 值 的 一 个 非常 简单 的 方法 是 使 用 欧 几 里 德 距 离 评价 方法 。 它 以 经 过 人 们 一 
致 评价 的 物品 为 坐标 轴 ， 然 后 将 参与 评价 的 人 绘制 到 图 上 ， 并 考查 他 们 彼此 间 的 距离 远近 ， 
如 图 2-1 所 示 : 





图 2-1: 处 于 “偏好 空间 ”中 的 人 们 


该 图 显示 了 处 于 “偏好 空间 ”中 人 们 的 分 布 状况 。Toby 在 Snakes 轴线 和 Dupree 轴线 上 所 
标示 的 数值 分 别 是 4.5 和 1.0。 两 人 在 “偏好 空间 ”中 的 距离 越 近 ， 他 们 的 兴趣 偏好 就 越 相 
似 。 因 为 这 张 图 是 二 维 的 ， 所 以 在 同一 时 间 内 你 只 能 看 到 两 项 评分 ， 但 是 这 一 规则 对 于 更 
多 数量 的 评分 项 而 言 也 是 同样 适用 的 。 


为 了 计算 图 上 Toby 和 LaSalle 之 间 的 距离 ， 我 们 可 以 计算 出 每 一 轴 向 上 的 差 值 ， 求 平方 后 
再 相 加 ， 最 后 对 总 和 取 平 方 根 。 在 Python 中 ， 我 们 可 以 利用 国 数 pow (n,2) 对 某 数 求 平方 ， 
并 使 用 sart 函数 求 平方 根 : 

>> from math import s 


>> sqrt (pow(4.5-4,2)+pow(1-2,2)) 
1.1180339887498949 


上 述 算 式 可 以 计算 出 距离 值 ， 偏 好 越 相似 的 人 ， 其 距离 就 越 短 。 不 过 ， 我 们 还 需要 一 个 函 
数 ， 来 对 偏好 越 相近 的 情况 给 出 越 大 的 值 。 为 此 ,我 们 可 以 将 函数 值 加 1 (这 样 就 可 以 避免 
遇 到 被 零 整除 的 错误 了 )， 并 取 其 倒数 : 


>> 1/(1l+sqrt (pow(4.5-4,2)+pow(1-2,2))) 
0.47213595499957939 
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这 一 新 的 函数 总 是 返回 介 于 0 到 | 之 间 的 值 ， 返 回 1 则 表示 两 人 具有 一 样 的 偏好 。 我 们 将 
前 述 知识 结合 起 来 ， 就 可 以 构造 出 用 来 计算 相似 度 的 函数 了 。 请 将 下 列 代码 加 入 


recommendations. py : 


from math import sqrt 


# 返回 一 个 有 关 Personl 45 person2 的 基于 距离 的 相似 度 评价 
def sim distance (prefs,personl,person2): 
# 得 到 shared items 的 列表 
si={} 
for item in prefs[person1]: 
if item in prefs [person2]): 
sifitem]=1 


# 如 果 两 者 没有 共同 之 处 、， 则 返回 0 


if len(si)==0: return 0 


# 计算 所 有 差 值 的 平方 和 
sum of squares=sum(([pow(prefs(person1] [item]-prefs[person2] [item], 2) 
for item in prefs[personl] if item in prefs[person2]]) 


return 1/ (1+sqrt (sum of squares) }) 


我 们 可 以 调用 该 函数 ， 分 别传 人 两 个 人 的 名 字 ， 并 计算 出 相似 度 的 评价 值 。 在 你 的 Python 
解释 器 里 执行 如 下 命令 

>>> reload (recommendations) 

>>> recommendations .Sim_ distance (recommendations .critics, 


TE ‘Lisa Rose','Gene Seymour') 
0.29429805508554946 


上 述 执行 过 程 给 出 了 Lisa Rose 和 Gene Seymour 之 间 的 相似 度 评价 。 请 用 其 他 人 的 名 字 试 
一 试 ， 看 看 我 们 是 否 能 够 找到 或 多 或 少 具 有 一 定 共性 的 人 。 


皮尔 逊 相关 度 评价 

Pearson Correlation Score 

除了 欧 几 里 德 距离 ， 还 有 一 种 更 复杂 一 些 的 方法 可 以 用 来 判断 人 们 兴趣 的 相似 度 ， 那 就 是 
-皮尔 逊 相关 系数 。 该 相关 系数 是 判断 两 组 数据 与 某 一 直线 拟 合 程度 的 一 种 度量 。 对 应 的 公 


式 比 欧 几 里 德 距离 评价 的 计算 公式 要 复杂 ， 但 是 它 在 数据 不 是 很 规范 (normalized) 的 时 候 
(比如 , 影评 者 对 影片 的 评价 总 是 相对 于 平均 水 平 偏离 很 大 时 ) , 会 倾向 于 给 出 更 好 的 结果 。 


为 了 形象 地 展现 这 一 方法 ， 我 们 可 以 在 图 上 标示 出 两 位 评论 者 的 评分 情况 ， 如 下 页 图 2-2 
所 示 。Mick LaSalle 为 《Superman》 评 了 3 分 ， 而 Gene Seymour 则 评 了 5 分 ， 所 以 该 影片 
被 定位 在 图 中 的 (3,5) 处 。 
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图 2-2: 在 散 点 图 上 比较 两 位 影评 者 的 评分 结果 


在 图 上 ， 我 们 还 可 以 看 到 一 条 直线 。 因 其 绘制 原则 是 尽 可 能 地 靠近 图 上 的 所 有 坐标 点 ， 故 
而 被 称 作 最 佳 拟 合 线 (best-fit line)。 如 果 两 位 评论 者 对 所 有 影片 的 评分 情况 都 相同 ， 那 么 
这 条 直线 将 成 为 对 角 线 ， 并 且 会 与 图 上 所 有 的 坐标 点 都 相交 ， 从 而 得 到 一 个 结果 为 1 的 理 
想 相 关 度 评价 。 对 于 如 上 图 所 示 的 情况 ， 由 于 评论 者 对 部 分 影片 的 评分 不 尽 相 同 ， 因 而 相 
关系 数 大 约 为 0.4 左右 。 图 2-3 展现 了 一 个 有 着 更 高 相关 系数 的 例子 ， 约 为 0.75。 





2-3: 具有 较 高 相关 度 评价 值 的 两 位 评论 者 
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在 采用 皮尔 还 方法 进行 评价 时 ， 我 们 可 以 从 图 上 发 现 一 个 值得 注意 的 地 方 ， 那 就 是 它 修正 
了 “ 弯 大 分 值 (grade inflation)” 的 情况 。 在 这 张 图 中 ， 虽 然 Jack Matthews 总 是 倾向 于 给 出 
LE Lisa Rose 更 高 的 分 值 , 但 最 终 的 直线 仍然 是 拟 合 的 , 这 是 因为 他 们 两 者 有 着 相对 近似 的 
偏好 。 如 果 某 人 总 是 倾向 于 给 出 比 另 一 个 人 更 高 的 分 值 ， 而 二 者 的 分 值 之 差 又 始终 保持 一 
致 ， 则 他 们 依然 可 能 会 存在 很 好 的 相关 性 。 此 前 提 到 过 的 欧 几 里 德 距离 评价 方法 ， 会 因为 
一 个 人 的 评价 始终 比 另 一 个 人 的 更 为 “严格 ”( 从 而 导致 评价 始终 相对 偏 低 )， 而 得 出 两 者 
不 相近 的 结论 ， 即 使 他 们 的 品味 很 相似 也 是 如 此 。 而 这 一 行为 是 否 就 是 我 们 想 要 的 结果 ， 
则 取决 于 具体 的 应 用 场景 。 


皮尔 逊 相关 度 评 价 算法 首先 会 找 出 两 位 评论 者 都 曾 评价 过 的 物品 ， 然 后 计算 两 者 的 评分 总 
和 与 平方 和 ， 并 求 得 评分 的 乘积 之 和 。 最 后 ， 算 法 利用 这 些 计算 结果 计算 出 皮尔 逊 相关 系 
数 ， 如 下 列 代码 中 粗 体 部 分 所 示 。 不 同 于 距离 度量 法 ， 这 一 公式 不 是 非常 的 直观 ， 但 是 通 
过 除 以 将 所 有 变量 的 变化 值 相 乘 后 得 到 的 结果 ， 它 的 确 能 够 告诉 我 们 变量 的 总 体 变 化 情况 。 


为 了 使 用 这 一 公式 , 请 新 建 一 个 与 recommendations.py 中 的 sim_distance 国 数 有 同样 签名 
的 函数 : . 


# 返回 pl 和 p2 的 皮尔 进 相关 系数 
def sim_pearson(prefs,pl,p2): 
E 得 到 双方 都 曾 评价 过 的 物品 列表 
si={} 
for item in prefs([pl]: 
if item in prefs[p2]: si[item]=1 


# 得 到 列表 元 素 的 个 数 


n=len(si) 


# 如 果 两 者 没有 共同 之 处 ， 则 返回 1 


if n==0: return 1 


# 对 所 有 偏好 求 和 
suml=sum([prefs[pl] [it] for it in sil} 
sum2=sum([prefs[{p2]{it] for it in si]) 


# 求 平 方 和 
sumlSq=sumt{ [Pow(Prefs [pl] [it],2) for it in si}) 
sum2Sq=sum([pow(prefs(p2][it],2) for it in sil} 


t 求 来 积 之 和 
pSum=sum( [prefs[pl] [it]*prefs[p2] [it] for it in si)) 


# 计算 皮尔 逊 评 价值 

num=pSum- (sum1*sum2/n) 

den=sqrt ( (sum1Sq-pow (suml , 2) /n) * (sum2Sq-pow (sum2 ,2) /n)) 
if den==0: return 0 

r=num/den 


return r 
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该 函数 将 返回 一 个 介 于 -1 与 1 之 间 的 数值 。 值 为 1 则 表明 两 个 人 对 每 一 样 物品 均 有 着 完全 
一 致 的 评价 。 与 距离 度量 法 不 同 ， 此 处 我 们 无 须 为 达到 正确 的 比率 而 对 这 一 数值 进行 变换 。 
现在 ， 我 们 可 以 试 着 求 一 下 图 2-3 中 的 相关 评价 值 了 : 

>>> reload (recommendations) 

>>> print recommendations.sim_ pearson (recommendations.critics, 

... ‘Lisa Rose','Gene Seymour') 

0.396059017191 


应 该 选用 哪 一 种 相似 性 度量 方法 
Which Similarity Metric Should You Use? 


我 们 在 此 处 已 经 介绍 了 两 种 不 同 的 度量 方法 ， 但 实际 上 ， 还 有 许多 方法 可 以 衡量 两 组 数据 
间 的 相似 程度 。 使 用 哪 一 种 方法 最 优 ， 完 全 取决 于 具体 的 应 用 。 如 果 你 想 看 看 哪 种 方法 能 
够 获得 更 好 的 实际 效果 ， 皮 尔 还 、 欧 几 里 德 距离 ， 或 者 任何 其 他 方法 ， 都 是 值得 一 试 的 。 


本 章 剩余 部 分 出 现 的 函数 均 有 一 个 可 选 的 相似 性 参数 ， 该 参数 指向 一 个 实际 的 算法 函数 ， 
这 可 以 使 针对 算法 的 实验 变 得 更 为 容易 ， 我 们 可 以 指定 sim pearson 或 sim distance 作 
为 相似 性 参数 的 取 值 。 我 们 还 可 以 使 用 许多 其 他 的 函数 ， 如 Jaccard 系数 或 曼哈顿 距离 算 
法 ， 作 为 相似 度 计 算 函 数 ， 只 要 它们 满足 如 下 条 件 : 拥有 同样 的 函数 签名 ， 以 一 个 浮 点 数 
作为 返回 值 ， 其 数值 越 大 代表 相似 度 越 大 。 


在 http://en.wikipedia.org/wiki/Metric_% 28mathematics% 29#Examples H, 我们 还 可 以 了 解 到 
其 他 用 于 比较 的 度量 算法 。 


为 评论 者 打分 
Ranking the Critics 


既然 我 们 已 经 有 了 对 两 个 人 进行 比较 的 函数 ， 下 面 我 们 就 可 以 编写 函数 ， 根 据 指定 人 员 对 
每 个 人 进行 打分 ， 并 找 出 最 接近 的 匹配 结果 了 。 在 本 例 中 ， 我 们 对 找寻 与 自己 有 相似 品味 
的 影评 者 很 感 兴趣 ， 因 为 这 样 我 们 就 知道 在 选择 影片 时 应 该 采纳 谁 的 建议 了 。 请 将 该 函数 
加 入 recommendations.py P, 以 得 到 一 个 人 员 的 有 序列 表 , 这 些 人 与 某 个 指定 人 员 具 有 相近 
的 品味 : 

E 从 反映 偏好 的 字典 中 返回 最 为 匹配 者 

E 返回 结果 的 个 数 和 相似 度 函 数 均 为 可 选 参数 

def topMatches (prefs, person,n=5,similarity=sim_pearson) : 


scores=[ (similarity (prefs,person, other) ,other) 
for other in prefs if other!=person] 


# 对 列表 进行 排序 ， 评 价值 最 高 者 排 在 最 前 面 
scores.sort () 


Scores .reVerse() 
return Scores[0:n] 
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该 函数 利用 了 Python 的 列表 推导 式 ， 采 用 先前 定义 过 的 某 种 距离 度量 算法 ， 将 自身 和 字典 
中 的 其 他 每 一 位 用 户 都 进行 了 比较 。 然 后 ， 函 数 返回 排序 结果 中 的 前 n 项 。 


调用 该 方法 并 传人 自己 的 姓名 ， 将 得 到 一 个 有 关 影 评 者 及 其 相似 度 评价 值 的 列表 : 


>> reload (recommendations) 

>> recommendations.topMatches (recommendations.critics, 'Toby' ,n=3) 

{ (0.99124070716192991, ‘Lisa Rose'), (0.92447345164190486, 'Mick LaSalle’), 
(0.89340514744156474, ‘Claudia Puig')] 


根据 返回 的 结果 我 们 了 解 到 , 应当 阅读 Lisa Rose 所 撰写 的 评论 , 因为 她 的 品味 与 我 们 的 很 
相近 。 如 果 你 看 过 这 些 电影 ， 也 不 妨 将 自己 的 偏好 信息 加 入 字典 中 ， 然 后 看 看 谁 是 你 最 喜 
欢 的 评论 者 。 


O 
推荐 物品 
Recommending Items 
找到 一 位 趣味 相投 的 影评 者 并 阅读 他 所 撰写 的 评论 固然 不 错 ， 但 现在 我 们 真正 想 要 的 不 是 
这 些 ， 而 是 一 份 影片 的 推荐 。 当 然 ， 我 们 也 可 以 查找 与 自己 品味 最 为 相近 的 人 ， 并 从 他 所 
喜欢 的 影片 中 找 出 一 部 自己 还 未 看 过 的 影片 ， 不 过 这 样 做 太 随意 了 (permissive)。 有 时 ， 这 
种 方法 可 能 会 有 问题 : 评论 者 还 未 对 某 些 影片 做 过 评论 ， 而 这 些 影片 也 许 就 是 我 们 所 喜欢 
的 。 还 有 一 种 可 能 是 ， 我 们 会 找到 一 个 热衷 某 部 影片 的 古怪 评论 者 ， 而 根据 topMatches 
所 返回 的 结果 ， 所 有 其 他 的 评论 者 都 不 看 好 这 部 影片 。 


为 了 解决 上 述 问 题 ， 我 们 须要 通过 一 个 经 过 加 权 的 评价 值 来 为 影片 打分 ， 评 论 者 的 评分 结 
果 因 此 而 形成 了 先后 的 排名 。 为 此 ， 我 们 须要 取得 所 有 其 他 评论 者 的 评价 结果 ， 借 此 得 到 
相似 度 后 ， 再 乘 以 他 们 为 每 部 影片 所 给 的 评价 值 。 表 2-2 给 出 了 这 一 方法 的 执行 过 程 。 

表 2-2: 为 Toby 提供 推荐 
-评论 者 |m 


Rose 





Seymour 
Puig 
LaSalle 
Matthews 
总 计 

Sim. Sum 


总 计 /Sim. Sum 
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表 中 列 出 了 每 位 评论 者 的 相关 度 评价 值 , 以 及 他 们 对 三 部 影片 (《The Night Listener), (Lady 
in the Water》 和 《Just My Luck》) 的 评分 情况 (我 们 还 不 曾 参与 评分 )。 以 S.x 打头 的 列 给 
出 了 乘 以 评价 值 之 后 的 相似 度 。 如 此 一 来 ， 相 比 于 与 我 们 不 相近 的 人 人， 那些 与 我 们 相近 的 
-人 将 会 对 整体 评价 值 拥 有 更 多 的 贡献 。 总 计 一 行 给 出 了 所 有 加 权 评 价值 的 总 和 。 


我 们 也 可 以 选择 利用 总 计 值 来 计算 排名 ， 但 是 我 们 还 须要 考虑 到 ， 一 部 受 更 多 人 评论 的 影 
片 会 对 结果 产生 更 大 的 影响 。 为 了 修正 这 一 问题 ， 我 们 须要 除 以 表 中 名 为 Sim.Sum 的 那 一 
行 ， 它 代表 了 所 有 对 这 部 电影 有 过 评论 的 评论 者 的 相似 度 之 和 。 由 于 每 个 人 都 对 影片 《The 
Night Listener) 进行 了 评论 ， 因 此 我 们 用 总 计 值 除 以 全 部 相似 度 之 和 。 而 对 于 影片 《Lady in 
the Water) mA, Puig 并 未 做 过 评论 ， 因 此 我 们 将 这 部 影片 的 总 计 值 除 以 所 有 其 他 人 的 相 
似 度 之 和 。 表 中 最 后 一 行 给 出 了 相 除 的 结果 。 


下 列 代码 反映 了 上 述 过 程 ， 非 常 的 简单 易 懂 ， 并 且 它 对 欧 几 里 德 距离 评价 或 皮尔 逊 相关 度 ， 
评价 都 是 适用 的 。 请 将 其 加 入 recommendations.py 中 ; 


# 利用 所 有 他 人 评价 值 的 加 权 平 均 ， 为 某 人 提供 建议 
def getRecommendations (prefs,person,similarity=sim pearson): 
totals={} 
simSums={ } 
for other in prefs: 
# 不 要 和 自己 做 比较 
if other==person: continue 
sim=similarity (prefs,person,other) 


# 起 略 评价 值 为 零 或 小 于 零 的 情况 
if sim<=0: continue 
for item in prefs[other]: 


# 只 对 自己 还 未 曾 看 过 的 影片 进行 评价 
if item not in prefs[person] or prefs[person] [item] ==0: 
# 相似 度 * 评 价值 
totals.setdefault (item,0) 
totals [item] +=prefs [other] [item] *sim 
# 相似 度 之 和 
simSums.setdefault (item,0) 
simSums [item]+=sim 


# 建立 一 个 归 一 化 的 列表 


rankings=[(total/simSums[item],item) for item, total in totals.items()}] 


# 返回 经 过 排序 的 列表 
rankings .SOrt () 
rankings.reverse ({) 
return rankings 


上 述 代 码 循环 过 历 所 有 位 于 字典 prefs 中 的 其 他 人 。 针 对 每 一 次 循环 ， 它 会 计算 由 person 
参数 所 指定 的 人 员 与 这 些 人 的 相似 度 。 然 后 它 会 循环 遍历 所 有 打 过 分 的 项 。 以 黑体 显示 的 
代码 行 说 明了 每 一 项 的 最 终 评价 值 的 计算 方法 一 一 用 每 一 项 的 评价 值 乘 以 相似 度 ， 并 将 所 
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得 乘积 累加 起 来 。 最 后 ， 我 们 将 每 个 总 计 值 除 以 相似 度 之 和 ， 借 此 对 评价 值 进行 归 一 化 处 
理 ， 然 后 返回 一 个 经 过 排序 的 结果 。 


这 样 ， 我 们 就 可 以 找到 自己 接 下 来 应 该 要 看 的 电影 了 : 


>>> reload (recommendations) 

>>> recommendations .getRecommendations(recommendations.critics, 'Toby' ) 
[ (3.3477895267131013, 'The Night Listener'), (2.8325499182641614, 'Lady in the 
Water'), (2.5309807037655645, ‘Just My Luck’) ] 

>>> recommendations .getRecommendations(recommendations.critics, 'Toby', 
ear similarity=recommendations.sim_distance) 

[ (3.5002478401415877, 'The Night Listener'), (2.7561242939959363, ‘Lady in the 
Water'), (2.4619884860743739, ‘Just My Luck’) ] 


此 处 ， 我 们 不 仅 得 到 了 一 个 经 过 排名 的 影片 列表 ， 而 且 还 推测 出 了 自己 对 每 部 影片 的 评价 
情况 。 根 据 这 份 结果 ， 我 们 可 以 决定 自己 究竟 要 不 要 观看 其 中 的 某 部 影片 ， 还 是 最 好 干脆 
什么 也 别 看 。 有 赖 于 具体 的 应 用 ， 假 如 无 法 满足 某 一 用 户 给 出 的 标准 ， 我 们 也 可 以 决定 不 
给 予 建议 。 你 会 发 现 ， 选 择 不 同 的 相似 性 度量 方法 ， 对 结果 的 影响 是 微乎其微 的 。 


现在 ， 我 们 已 经 建立 起 了 一 个 完整 的 推荐 系统 ， 它 适用 于 任何 类 型 的 商品 或 网 络 链接 。 我 
们 所 要 做 的 全 部 事情 就 是 : 建立 一 个 涉及 人 员 、 物 品 和 评价 值 的 字典 ， 然 后 就 可 以 借 此 来 
为 任何 人 提供 建议 了 。 在 本 章 的 后 续 章节 中 ， 你 将 会 看 到 如 何 利用 del.icio.us API 来 获取 真 
实数 据 ， 进 而 向 人 们 推荐 Web 站 点 。 


匹配 商品 


Matching Products 


现在 ， 我 们 已 经 知道 了 如 何 为 指定 人 员 寻 找 品 味 相近 者 ， 以 及 如 何 疝 其 推荐 商品 的 方法 ， 
但 是 假如 我 们 想 了 解 哪些 商品 是 彼此 相近 的 ， 那 又 该 如 何 微 呢 ? 也 许 我 们 曾经 在 购物 网 站 
上 遇 到 过 这 种 情形 ， 尤 其 是 当 网 站 还 设 有 收集 到 关于 用 户 的 足够 信息 时 。 图 2-4 显示 了 
Amazon 网 站 上 有 关 《Programming Python) 一 书 的 局 部 网 页 。 


Customers who bought this tem also bought 


Learning Python, Second Edition by Mark Lutz 
Python Cookbook by Alex Martelli 


Python in a Nutshell by Alex Martelli 
Python Essential Reference (2nd Edition) by David Beazley 
Foundations of Python Network Programming (Foundations) by John Goerzen 


> Explore si miar items : Books (42) 





2-4: Amazon Mid Ww 75 (Programming Python) 相近 的 同类 商品 
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在 这 种 情况 下 ， 我 们 可 以 通过 查看 哪些 人 喜欢 某 一 特定 物品 ， 以 及 这 些 人 喜欢 哪些 其 他 物 
品 来 决定 相似 度 。 事 实 上 ， 这 和 我 们 此 前 用 来 决定 人 与 人 之 间 相 似 度 的 方法 是 一 样 的 一 一 
只 须要 将 人 员 与 物品 对 换 即 可 。 因 此 ， 假 如 我 们 将 


{'Lisa Rose’: {'Lady in the Water’: 2.5, "Snakes on a Plane’: 3.5}, 

"Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5}} 
换 成 

{'Lady in the Water':{'Lisa Rose':2.5,'Gene Seymour':3.0}, 

"Snakes on a Plane':{'Lisa Rose':3.5,'Gene Seymour':3.5}} etc.. 


就 可 以 复 用 以 前 所 写 的 方法 了 。 将 执行 这 一 转换 过 程 的 函数 加 和 recommendations.py 中 ; 


def transformPrefs (prefs): 
result={} 
for person in prefs: 
for item in prefs[person]: 
result.setdefault (item, {}) 


E 将 物品 和 人 员 对 调 
result [item] [person]=prefs [person] [item] 
return result 


现在 ， 调 用 以 前 曾经 用 过 的 topMatches 函数 ， 得 到 一 组 与 《Superman Returns》 最 为 相近 
的 影片 : 

>> reload (recommendations) 

>> movies=recommendations.transformPrefs (recommendations. critics) 

>> recommendations .topMatches (movies, 'Superman Returns') 


[ (0.657, "You, Me and Dupree'), (0.487, ‘Lady in the Water’), (0.111, "Snakes ona 
Plane'), (-0.179, "The Night Listener'), (-0.422, ‘Just My Luck')] 


请 注意 : 在 本 例 中 , 实际 存在 着 一 些 相 关 评 价值 为 负 的 情况 , 这 表明 那些 喜欢 影片 《Superman 
Returns》 的 人 ， 存 在 不 喜欢 《Just My Luck) 的 倾向 ， 如 图 2-5 所 示 。 


上 面 我 们 示范 了 为 某 部 影片 提供 相关 影片 的 推荐 ,不 仅 如 此 ， 我 们 其 至 还 可 以 为 影片 推荐 
评论 者 。 例 如 ， 也 许 我 们 正在 考虑 邀请 谁 和 自己 一 起 参加 某 部 影片 的 首 映 式 。 


>> recommendations .getRecommendations (movies, 'Just My Luck') 
[{4.0, ‘Michael Phillips'), (3.0, ‘Jack Matthews')] 


将 人 和 物 对 调 并 不 总 是 会 得 到 有 价值 的 结果 ， 但 是 大 多 数 情况 下 ， 这 将 有 助 于 我 们 作出 有 
意义 的 对 比 。 为 了 向 不 同 的 个 体 推 荐 商品 ， 在 线 零 售 商 可 能 会 收集 人 们 的 购买 历史 。 将 商 
品 与 人 进行 对 调 一 一 正如 我 们 此 前 所 做 的 那样 一 一 可 以 令 等 售 商 找到 购买 某 些 商品 的 潜在 
客户 。 这 对 于 他 们 为 了 清仓 处 理 某 些 商品 而 在 市 场 营销 投入 方面 制定 的 规划 ， 也 许 是 很 有 
助 益 的 。 这 种 做 法 的 另 一 个 潜在 用 途 是 ， 在 专门 推荐 链接 的 网 站 上 ， 这 样 敌 可 以 确保 新 出 
现 的 链接 ， 能 够 被 那些 最 有 可 能 对 它 产生 兴趣 的 网 站 用 户 找 到 。 
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2-5: «Superman Returns》 和 《Just My Luck》 存 在 负 值 相关 性 
构建 一 个 基于 del.icio.us ee 
Building a del.icio.us Link Recommender 


本 节 将 向 大 家 介绍 ， 如 何 从 最 受 欢迎 的 在 线 书 签 网 站 上 获取 数据 ， 如 何 利用 这 些 数 据 查 找 





到 一 一 允许 人 们 建立 自己 的 账号 ， 并 允许 张贴 自己 感 兴趣 的 链接 ， 以 备 日 后 参考 之 用 。 我 
们 可 以 访问 网 站 并 查看 其 他 人 张贴 的 链接 ， 也 可 以 浏览 许多 不 同 用 户 所 张贴 的 热门 链接 。 
2-6 展示 了 一 个 取 自 del.icio.us 网 站 的 网 页 样 例 。 


del.icio.us / popular / programming popular | recent 
| your bookmarks | your network | inbox | links for you | post logged in as tsegaran | settings | logout | help 


Popular tems tagged programming 一 wew yours, all | || seticions s| (search ] 


Coding Honrar: The Progen 二 of R 


first posted by hus: {56 racenty ) 


er ee save this 


erie ) 


rons oi easy ips programming with Ruby save tis 


fst posted by jacek becela or 2005-02-18 MBean (27 recent 


a hes ein ave thes 
MWe? posted bu mec On 2006-08-17 





2-6: del.icio.us 网 站 有 关 编 程 方面 的 热门 网 页 
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和 某 些 链接 共享 类 的 网 站 (link-sharing sites) 不 同 ， 在 本 书 撰写 期 间 ，delicio.us 还 没有 提 
供 寻 找 相 近 用 户 的 方法 ， 也 不 向 用 户 提供 链接 推荐 。 所 幸 的 是 ， 我 们 可 以 利用 本 章 所 讨论 
的 技术 来 为 自己 添加 这 部 分 功能 。 


The del.icio.us API 


通过 API 访问 del.icio.us 网 站 所 获得 的 数据 是 以 XML 格式 返回 的 。 为 了 方便 起 见 ， 有 一 套 
事先 编写 好 的 Python API， 我 们 可 以 从 http;code.google.com/p/pydelicious/source 或 
Horeilly.com/catalog/9780596529321 处 下 载 到 。 


为 了 使 本 节 中 的 示例 能 够 正常 运行 ， 我 们 须要 下 载 函 数 库 的 最 新 版 本 ， 并 将 其 置 于 Python 
函数 库 所 在 路 径 下 (有 关 安 装 该 库 的 更 多 信息 ， 请 见 附录 A). 


该 函数 库 提供 了 一 系列 简单 的 函数 调用 ， 可 以 用 来 获得 用 户 提交 的 链接 信息 。 例 如 ， 为 了 
得 到 一 组 近期 张贴 的 有 关 编 程 方面 的 热门 链接 ， 我 们 可 以 使 用 get_popular 函数 : 


>> import pydelicious 
>> pydelicious.get_popular(tag='programming') 


{{’count': '', ‘extended’: '', 'hash': '', 'description': u'How To Write 
Unmaintainable Code', 'tags': '', 'href': u'http://thc.segfault.net/root/phun/ 
unmaintain.html', 'user': u'dorsia', 'dt': u'2006-08-19T09:48:56Z'}, {'count': '', 
‘extended’: '', "hash': '', 'description’: u'Threading in C#', 'tags': '', 'href': 
u'http://www.albahari.com/threading/', 'user': u'mmihale', 'dt': u'2006-05-17T18:09: 
24Z"}, 

RY 


我 们 可 以 看 到 ， 上 述 调用 返回 了 一 个 包含 字典 的 列表 ， 其 中 的 每 一 项 都 包含 了 : URL, fi 
述 ， 以 及 提交 者 。 因 为 我 们 使 用 的 是 真实 数据 ， 所 以 实际 结果 可 能 会 与 上 例 有 所 不 同 。 还 
有 另外 两 个 函数 调用 我 们 也 可 能 会 用 到 : get_urlposts， 返 回 给 定 URL 的 所 有 张贴 记录 ， 
get_userposts, 返 回 给 定 用 户 的 所 有 张贴 记录 。 这 些 函 数 调用 所 返回 的 数据 同样 都 是 XML 
格式 的 。 


ca 


Building the Dataset 


要 想 从 del.icio.us 网 站 将 所 有 用 户 张贴 的 信息 都 下 载 下 来 是 不 可 能 的 , 因此 我 们 须要 从 中 选 
择 一 个 子 集 。 根 据 自 己 的 喜好 ， 我 们 可 以 选择 任何 形式 的 子 集 ， 不 过 为 了 让 例子 给 出 的 结 
果 显 得 更 有 意义 ， 我 们 不 妨 找 一 找 那些 经 常 张贴 链接 的 用 户 和 张贴 内 容 类 似 的 用 户 。 


为 了 达到 这 一 目的 ， 有 一 种 做 法 是 找到 一 组 近期 提交 过 的 菜 一 热门 链接 ， 且 链接 附带 指定 
标签 (tag) 的 用 户 。 请 新 建 一 个 名 为 deliciousrec.py 的 文件 ， 输 入 如 下 代码 : 


from pydelicious import get popular,get Vserposts,get urlposts 


def initializeUserDict (tag, count=5): 
user dict={} 
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# 获取 前 count 个 最 受 欢迎 的 链接 张贴 记录 
for pl in get popular (tag=tag) [0:count]: 
# 查找 所 有 张贴 该 链接 的 用 户 
for p2 in get_urlposts(pl['href']): 
user=p2['user'] 
user dict [user] ={} 
return user dict 


执行 上 述 代码 将 得 到 一 个 包含 若干 用 户 数据 的 字典 ， 其 中 每 一 项 都 各 自 指向 一 个 等 待 填 人 
具体 链接 的 空 字典 。 由 于 API 只 会 返回 最 后 30 个 张贴 链接 的 用 户 ， 因 此 上 述 函 数 只 搜集 了 
与 前 5 个 链接 相对 应 的 用 户 数据 ， 并 进而 构造 出 一 个 数据 集 。 


不 同 于 保存 影评 者 的 数据 集 ， 在 本 例 中 只 有 两 种 可 能 的 评价 值 : 0 (如 果 用 户 没 有 张贴 这 一 
链接 ) 和 1 (如 果 用 户 张贴 了 这 一 链接 )。 现 在 ， 我 们 可 以 利用 API 来 建立 一 个 填充 所 有 用 
户 评价 值 的 函数 了 。 请 将 如 下 代码 加 入 到 deliciousrec.py 中 : 


def fillItems(user dict): 
all_items={} 
# 查找 所 有 用 户 都 提交 过 的 链接 
for user in user_dict: 
for i in range(3): 
try: 
posts=get_userposts (user) 
break 
except: 
print "Failed user “+user+", retrying" 
time.sleep (4) 
for post in posts: 
url=post[‘'href"] 
user _dict[user) [url]=1.0 
all items [url]=1 


# 用 0 填充 扎 失 的 项 
for ratings in user_dict.values(): 
for item in all items: 
if item not in ratings: 
ratings [item]=0.0 
我 们 可 以 利用 上 述 函 数 来 构造 一 个 数据 集 ， 类 似 于 本 章 开始 处 手工 构造 的 反映 影评 者 信息 
的 字典 : 
>> from deliciousrec import * 
>> delusers=initializeUserDict('programming') . 
>> delusers ['tsegaran']={} # 如 有 果 你 也 使 用 delicious， 则 将 自己 也 加 入 字典 中 
>> fillItems (delusers) 


上 面 第 三 行 代码 将 用 户 tsegaran 添加 到 了 列表 中 。 假 如 你 也 使 用 delicious， 则 不 妨 以 自 
CRIA FRR tsegaran。 


对 £illitems 的 调用 可 能 会 花费 几 分 钟 的 时 间 来 执行 ， 因 为 它 会 向 网 站 发 起 数 百 个 请 求 。 
有 时 会 因为 请 求 反复 发 起 太 快 而 致使 API 阻塞 请 求 响 应 。 在 这 种 情况 下 ， 代 码 会 暂停 执行 
并 至 多 重 试 三 次 。 
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既然 我 们 已 经 构造 好 了 数据 集 ， 那 就 可 以 利用 此 前 在 影评 数据 集中 曾经 用 过 的 同一 组 函数 
进行 推荐 了 。 为 了 随机 选择 一 位 用 户 ， 并 找 出 与 其 品味 相近 的 其 他 用 户 ， 请 将 如 下 代码 和 输 
入 你 的 Python 会 话 中 : 

>> import random 

>> user=delusers.keys() [random.randint (0,len(delusers) -1) ] 

>> user 

Ri wedge (ume) 

[ (0.083, u'kuzz99"'), (0.083, u'arturoochoa'), (0.083, u'NickSmith'), (0.083, 

u'MichaelDahl'), (0.050, u'zinggoat") ] 


我 们 也 可 以 通过 调用 getRecommendations 函数 为 该 用 户 获取 推荐 链接 。 因 为 方法 调用 将 
会 依 序 返回 全 部 物品 ， 所 以 最 好 将 其 限制 在 前 10 条 ，; 
>> recommendations .getRecommendations (delusers,user) [0:10] 
[(0.278, u'’http://www.devlisting.com/'), 
(0.276, u'http://www.howtoforge.com/linux_ ldap authentication'), 
(0.191, u'http://yarivsblog.com/articles/2006/08/09/secret-weapons-for-startups'), 
(0.191, u’http://www.dadgum.com/james/performance.html'), 
(0.191, u'’http://www.codinghorror.com/blog/archives/000666.htm1") ] 


当然 ， 与 之 前 所 演示 的 一 样 ， 偏 好 列表 中 的 各 项 是 可 以 被 调换 的 ， 这 样 我 们 就 可 以 依据 链 
接 而 非 人 员 来 进行 搜索 了 。 为 了 寻找 与 我 们 所 关注 的 某 一 链接 相 类 似 的 一 组 链接 ， 我 们 可 
以 尝试 输入 下 列 命令 : 

>> url=recommendations .getRecommendations (delusers,user) [0] [1] 

>> recommendations .topMatches (recommendations .transformPrefs (delusers) ,url) 

[(0.312, u'http://www.fonttester.com/'), 

(0.312, u'http://www.cssremix.com/'), 

(0.266, u'http://www. logoorange.com/color/color-codes-chart.php'), 

(0.254, u'http://yotophoto.com/'), 

(0.254, u'http://www.wpdfd.com/editorial/basics/index.html') ] 


就 这 样 ! 我 们 成 功 地 为 delicio.us 网 站 增加 了 一 个 推荐 引擎 。 我 们 还 可 以 做 更 多 的 事情 。 因 


A del.icio.us 网 站 支持 根据 标签 进行 搜索 , 所 以 我 们 还 可 以 找 出 那些 彼此 相似 的 标签 。 甚 至 ， 
我 们 还 可 以 搜索 出 那些 使 用 不 同 账号 张贴 同一 链接 的 、 企 图 以 此 来 炒作 网 页 的 人 。 


基于 物品 的 过 滤 


H afii- pas Sed | Filtering 
迄今 为 止 已 经 完成 的 推荐 引擎 ， 要 求 我 们 使 用 来 自 每 一 位 用 户 的 全 部 评分 来 构造 数据 集 。 
这 种 方法 对 于 数量 以 千 计 的 用 户 或 物品 规模 而 言 或 许 是 没 问 题 的， 但 对 于 像 . Amazon 这 样 
有 着 上 百 万 客户 和 商品 的 大 型 网 站 而 言 ， 将 一 个 用 户 和 所 有 其 他 用 户 进行 比较 ， 然 后 再 对 
每 位 用 户 评 过 分 的 商品 进行 比较 ， 其 速度 可 能 是 无 法 忍受 的 。 同 科 ， 一 个 商品 销售 量 为 数 
百 万 的 网 站 ， 也 许 用 户 在 偏好 方面 彼此 间 很 少 会 有 重合 ,这 可 能 会 令 用 户 的 相似 性 判断 变 
得 十 分 困难 。 
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目前 为 止 我 们 所 采用 的 技术 被 称 为 基于 用 户 的 协作 型 过 滤 (user-based collaborative 
filtering) 。 除 此 以 外 , 还 有 另 一 种 可 供 选 择 的 方法 被 称 为 基于 物品 的 协作 型 过 滤 (item-based 
collaborative filtering )。 在 拥有 大 量 数据 集 的 情况 下 ,基于 物品 的 协作 型 过 滤 能 够 得 出 更 好 
的 结论 ， 而 且 它 允许 我 们 将 大 量 计算 任务 预先 执行 ， 从 而 使 须要 给 予 推荐 的 用 户 能 够 更 快 
地 得 到 他 们 所 要 的 结果 。 


基于 物品 的 过 滤 过 程 沿 用 了 我 们 之 前 已 经 讨论 过 的 许多 内 容 。 其 总 体 思路 就 是 为 每 件 物 品 
预先 计算 好 最 为 相近 的 其 他 物品 。 然 后 ， 当 我 们 想 为 某 位 用 户 提供 推荐 时 ， 就 可 以 查看 他 
曾经 评 过 分 的 物品 ， 并 从 中 选 出 排 位 靠 前 者 ， 再 构造 出 一 个 加 权 列 表 ， 其 中 包含 了 与 这 些 
选中 物品 最 为 相近 的 其 他 物品 。 此 处 最 为 显著 的 区 别 在 于 ， 尽 管 第 一 步 要 求 我 们 检查 所 有 
的 数据 ， 但 是 物品 间 的 比较 不 会 像 用 户 间 的 比较 那么 频繁 变化 。 这 意味 着 ， 无 须 不 停 地 计 
算 与 每 样 物品 最 为 相近 的 其 他 物品 ， 我 们 可 以 将 这 样 的 运算 任务 安排 在 网 络 流 量 不 是 很 大 
的 时 候 进 行 ， 或 者 在 独立 于 主 应 用 之 外 的 另 一 台 计 算 机 上 单独 进行 。 


构造 物品 比较 数据 集 


Building the Item Comparison Dataset 


为 了 对 物品 进行 比较 ， 我 们 要 做 的 第 一 件 事情 就 是 编写 一 个 函数 ， 构 造 一 个 包含 相近 物品 
的 完整 数据 集 。 再 重申 一 次 ， 这 项 工作 无 须 在 每 次 提供 推荐 时 都 做 一 遍 一 一 相反 ， 构 建 完 
一 次 数据 集 之 后 ， 我 们 就 可 以 在 需要 的 时 候 重复 使 用 它 。 


为 了 生成 数据 集 ， 请 将 下 列 函 数 加 入 recommendations py 中 : 


def calculateSimilarItems (prefs,n=10): 
# 建立 字典 ， 以 给 出 与 这 些 物品 最 为 相近 的 所 有 其 他 物品 


result={} 


# Vide do A PS 8p A tT He R He] E Abe 
itemPrefs=transformPrefs (prefs) 
c=0 
for item in itemPrefs: 
t 针对 大 数据 全 更 新 状态 变量 
c+=1 
if c#100==0: print “td / td" % (c,len(itemPrefs) ) 
+ 寻找 最 为 相近 的 物品 
scores=topMatches (itemPrefs, item,n=n,similarity=sim_distance) 
result [item]=scores 
return result 


该 函数 首先 利用 了 此 前 定义 过 的 transformPrefs 函数 ， 对 反映 评价 值 的 字典 进行 倒置 处 
理 ， 从 而 得 到 一 个 有 关 物 品 及 其 用 户 评价 情况 的 列表 。 然 后 ， 程 序 又 循环 遍历 每 项 物品 ， 
并 将 转换 了 的 字典 传人 topMatches 函数 中 , 求 得 最 为 相近 的 物品 及 其 相似 度 评 价值 .最 后 ， 
它 建立 并 返回 了 一 个 包含 物品 及 其 最 相近 物品 列表 的 字典 。 
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请 在 你 的 Python 会 话 中 构造 一 个 物品 相似 度 的 数据 集 ， 然 后 看 一 看 运行 的 结果 : 


>>> reload (recommendations) 

>>> itemsim=recommendations .calculateSimilarItems (recommendations .critics) 

>>> itemsim 

{'Lady in the Water': [(0.40000000000000002, ‘You, Me and Dupree"), 
(0.2857142857142857, ‘The Night Listener'),... 

"Snakes on a Plane': [(0.22222222222222221, ‘Lady in the Water’), 
(0.18181818181818182, 'The Night Listener'),... 

etc. 


请 记 住 ， 只 有 频繁 执行 该 函数 ， 才 能 令 物品 的 相似 度 不 至 过 期 。 通 常 我 们 须要 在 用 户 基数 
和 评分 数量 还 不 是 很 大 的 时 候 执行 这 一 函数 ， 但 是 随 着 用 户 数量 的 不 断 增长 ， 物 品 间 的 相 
似 度 评价 值 通常 会 变 得 越 来 越 稳定 。 


获得 推荐 


; = 
: ryt Pst te Ef soyrr te 4 + IFAS NEC 
FEET AAG TN GHC Oe RHS 


现在 ， 我 们 已 经 可 以 在 不 遍历 整个 数据 集 的 情况 下 ， 利 用 反映 物品 相似 度 的 字典 来 给 出 推 4 
荐 了 。 我 们 可 以 取 到 用 户 评价 过 的 所 有 物品 ， 找 出 其 相近 物品 ， 并 根据 相似 度 对 其 进行 加 
权 。 我 们 可 以 很 容易 地 根据 物品 字典 来 得 到 相似 度 。 


表 2-3 给 出 了 利用 基于 物品 的 方法 寻找 推荐 的 过 程 。 不 同 于 表 2-2， 此 处 并 没有 涉及 所 有 评 
论 者 ， 而 是 给 出 了 一 个 表格 ， 对 我 们 打 过 分 和 未 打 过 分 的 影片 进行 了 对 照 。 


4.5 





此 处 的 每 一 行 都 列 出 了 一 部 我 们 曾经 观看 过 的 影片 ， 以 及 对 该 片 的 个 人 评价 。 对 于 每 一 部 
我 们 还 未 曾 看 过 的 影片 ， 相 应 有 一 列 会 指出 它 与 已 观看 影片 的 相近 程度 一 一 例如 : 影片 
《Superman》 和 《The Night Listener) 之 间 的 相似 度 评价 值 为 0.103。 以 R.x 打头 的 列 给 出 
了 我 们 对 影片 的 评价 值 乘 以 相似 度 之 后 的 结果 一 一 由 于 我 们 对 《Superman》 的 评分 是 4.0， 
FLA “Night in the Superman” 的 后 一 列 对 应 取 值 为 : 4.0 * 0.103 = 0.412. 


总 计 一 行 给 出 了 每 部 影片 相似 度 评价 值 的 总 计 值 及 其 R.x 列 的 总 计 值 。 为 了 预测 我 们 对 每 
部 影片 的 评分 情况 , 只 要 将 Rx 列 的 总 计 值 除 以 相似 度 一 列 的 总 计 值 即 可 。 我 们 对 影片 《The 
Night Listener) 的 评分 情况 为 ，1.378/0.433 = 3.183, 
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请 将 下 列 函数 加 入 recommendations.py 中 ， 我 们 就 可 以 利用 上 述 功能 了 : 


def getRecommendedItems (prefs, itemMatch, user) : 
userRatings=prefs [user] 
scores={} 
totalSim={ } 


# 拍 环 遍历 由 当前 用 户 评分 的 物品 


for (item,rating) in userRatings.items(): 


# 循环 遍历 与 当前 物品 相近 的 物品 


for (similarity,item2) in itemMatch[item]: 


# 如 果 该 用 户 已 经 对 当前 物品 做 过 评价 ， 则 将 其 忽略 


if item2 in userRatings: continue 


# 评价 值 与 相似 度 的 加 权 之 和 
scores.setdefault (item2,0) 
scores [item2)+=similarity*rating 


# 全 部 相似 度 之 和 
totalSim.setdefault (item2, 0) 
totalSim[(item2]+=similarity 


# 将 每 个 合计 值 除 以 加 权 和 ， 求 出 平均 值 


rankings=[ (score/totalSim[item],item) for item,score in scores.items() ] 


# 按 最 高 值 到 最 低 值 的 顺序 ， 返 回 评 分 结果 
rankings.sort () 

rankings. reverse () 

return rankings 


我 们 可 以 试 着 运行 一 下 该 函数 ， 并 传人 以 前 构造 好 的 相似 度数 据 集 ， 为 Toby 提供 一 个 新 的 
推荐 结果 : 
>> reload (recommendations) 
>> recomendations .getRecommendedItems (recommendations .critics,itemsim, 'Toby') 
[(3.182, ‘The Night Listener'), 
(2.598, "Just My Luck’), 
(2.473, ‘Lady in the Water') ] 

«The Night Listener) 依然 以 较 大 的 评价 值 排 在 最 前 面 ， 而 《Just My Luck) #1 (Lady in the 
Water》 尽 管 依 然 靠 得 很 近 ， 但 它们 的 排列 位 置 有 了 变化 。 更 为 重要 的 是 ， 在 调用 
getRecommendeditems 时 ， 我 们 不 必 再 为 所 有 其 他 评论 者 计算 相似 度 评价 值 ， 因 为 物品 相 
似 度数 据 集 已 经 事先 构造 好 了 。 


使 用 MovieLens 数据 集 
Using the MovieLens Dataset 


作为 本 章 的 最 后 一 个 示例 ， 让 我 们 来 看 一 个 涉及 电影 评价 的 真实 数据 集 ， 叫 做 MovieLens, 
MovieLens 是 由 明尼苏达 州立 大 学 的 GroupLens 项 目 组 开发 的 。 我 们 可 以 从 http//www. 
grouplens.org/node/12 处 下 载 到 数据 集 (译注 1)。 有 两 个 数据 集 可 供 下 载 。 请 选择 下 载 十 万 
数据 集 。 根 据 所 使 用 的 平台 ,我 们 可 以 选择 以 tar.gz 格式 或 zip 格式 进行 下 载 。 


译注 1: 此 处 提供 的 下 载 链 接 有 误 ， 实 际 为 http//www. grouplens.org/node/73, 
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归档 文件 中 包含 了 不 少 文件 , 不 过 我 们 关心 的 是 u.item F udata, 前 者 包含 了 一 组 有 关 影 片 
ID 和 片 名 的 列表 ， 后 者 则 包含 了 以 如 下 形式 给 出 的 实际 评价 情况 ; 


196 242 3 881250949 
186 302 3 891717742 
22 377 al; 878887116 
244 eji 2 880606923 
166 346 1 886397596 
298 474 4 884182806 


此 处 的 每 一 行 数据 都 包含 了 一 个 用 户 ID、 影 片 一 、 用 户 对 该 片 所 给 的 评分 ， 以 及 评价 的 时 
间 。 我 们 可 以 通过 影片 的 ID 获取 到 片 名 ， 但 对 于 用 户 数据 而 言 ， 由 于 是 匿名 的 ， 因 此 在 本 
节 中 我 们 只 能 对 用 户 ID 进行 处 理 。 该 数据 集中 包含 了 943 名 用 户 对 1 682 部 影片 所 作 的 评 
价 ， 每 位 用 户 至 少 曾 为 20 部 影片 做 过 评价 。 


请 在 recommendations.py 文件 中 新 建 一 个 方法 ， 取 名 loadMovieLens， 用 以 加 载 上 述 数 据 : 


def loadMovieLens (path='/data/movielens'): 


# 获取 影片 标题 

movies={ } 

for line in open(path+'/u.item'): 
(id, title)=line.split('|') [0:2] 
movies [id]=title 


# 加 载 数据 

prefs={} 

for line in open(path+'/u.data'): 
(user,movieid, rating,ts)=line.split(’\t') 
prefs.setdefault (user, {}) 
Prefs [user] [movies [movieid] ]=float (rating) 

return prefs 


请 在 你 的 Python 会 话 中 将 数据 加 载 进 来 ， 并 随机 查看 任意 一 位 用 户 的 评分 情况 : 


>>> reload (recommendations) 

>>> prefs=recommendations .loadMovieLens () 

>>> prefs['87'] 

{'Birdcage, The (1996)': 4.0, 'E.T. the Extra-Terrestrial (1982)': 3.0, 
"Bananas (1971)': 5.0, ‘Sting, The (1973)': 5.0, ‘Bad Boys (1995)': 4.0, 
'In the Line of Fire (1993)': 5.0, 'Star Trek: The Wrath of Khan ({1982)': 5.0, 

"Speechless (1994)': 4.0, etc... 


我 们 可 以 获取 基于 用 户 的 推荐 : 


>>> recommendations .getRecommendations (prefs, '87') [0:30] 

[(5.0, ‘They Made Me a Criminal (1939)'), (5.0, "Star Kid (1997)'), 
(5.0, "Santa with Muscles (1996)'), (5.0, 'Saint of Fort Washington (1993)'), 
EE ed 


当 利 用 上 述 方式 获取 推荐 时 ， 我 们 可 能 会 注意 到 有 停顿 的 现象 ， 停 顿时 间 的 长 短 取 决 于 我 
们 所 用 机 器 的 速度 。 那 是 因为 此 肇 我 们 正在 处 理 一 个 较 之 先前 更 大 规模 的 数据 集 。 拥 有 的 
用 户 越 多 ， 获 取 基 于 用 户 的 推荐 所 花费 的 时 间 就 越 长 。 现 在 ， 请 改换 为 基于 物品 的 推荐 试 
Pe 
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>>> itemsim=recommendations.calculateSimilarItems (prefs,n=50) 
100 / 1664 
200 / 1664 


>>> recommendations. getRecommendedItems (prefs, itemsim, '87') [0:30] 
[(5.0, "What's Eating Gilbert Grape (1993)"), (5.0, 'Vertigo (1958)'), 
(5.0, ‘Usual Suspects, The (1995)'), (5.0. "Toy Story (1995)'),etc...] 


尽管 构造 物品 的 相似 度 字典 花费 了 较 长 的 时 间 ， 但 是 推荐 过 程 几乎 是 在 数据 构造 完毕 后 瞬 
间 完 成 的 。 而 且 ， 获 取 推 荐 所 花费 的 时 间 不 会 随 着 用 户 数量 的 增加 而 增加 。 


这 是 一 个 很 好 的 测试 用 数据 集 ， 利 用 它 我 们 可 以 了 解 不 同 评价 方法 对 结果 的 影响 程度 ， 以 
及 基于 物品 和 基于 用 户 的 过 滤 方 法 是 如 何以 不 同方 式 执行 的 .GroupLens 网 站 还 有 另外 一 些 
数据 集 可 供 使 用 ， 内 容 涉及 图 书 、 笑 话 ， 以 及 更 多 的 影片 。 


基于 用 em 


jenr- Bas tem-Based Filtering? 


在 针对 大 数据 集 生 成 推荐 列表 时 ， 基 于 物品 进行 过 滤 的 方式 明显 要 比 基 于 用 户 的 过 滤 更 快 ， 
不 过 它 的 确 有 维护 物品 相似 度 表 的 额外 开销 。 同 时 ， 这 种 方法 根据 数据 集 “ 稀 疏 ” 程 度 上 
的 不 同 也 存在 精准 度 上 的 差异 。 在 涉及 电影 的 例子 中 ， 由 于 每 个 评论 者 几乎 对 每 部 影片 都 
做 过 评价 ， 所 以 数据 集 是 密集 的 (而 非 稀疏 的 )。 另 一 方面 ， 它 又 不 同 于 查找 两 位 有 相近 
del.icio.us 书签 的 用 户 一 一 大 多 数 书签 都 是 为 小 众 群体 所 收藏 的 ， 这 就 形成 了 一 个 稀疏 数据 
集 。 对 于 稀疏 数据 集 ， 基 于 物品 的 过 滤 方 法 通常 要 优 于 基于 用 户 的 过 滤 方 法 ， 而 对 于 密集 
数据 集 而 言 ， 两 者 的 效果 则 几乎 是 一 样 的 。 


we 提示 : 要 了 解 更 多 有 关 这 些 算 法 在 执行 效率 上 的 差异 情况 ， 请 从 

http://citeseer.ist.psu.edu/sarwar0litembased.html 处 下 载 由 Sarwar 等 

4s 人 所 拣 写 的 一 篇 论文 ， 名 为 《基于 物品 的 协作 型 过 小 推荐 算法 
(Item-based Collaborative Filtering Recommendation Algorithms)》。 


尽管 如 此 ， 基 于 用 户 的 过 滤 方 法 更 加 易于 实现 ， 而 且 无 需 额外 步骤 ， 因 此 它 通常 更 适用 于 
规模 较 小 的 变化 非常 频繁 的 内 存 数 据 集 。 最 后 ， 在 一 些 应 用 中 ， 告 诉 用 户 还 有 哪些 人 与 自 
己 有 着 相近 偏好 是 有 一 定价 值 的 一 一 也 许 对 于 一 个 购物 网 站 而 言 ， 我 们 并 不 想 这 么 做 ， 但 
是 对 于 一 个 链接 共享 类 或 音乐 推荐 类 的 网 站 ， 这 种 潜在 需求 却 是 存在 的 。 


现在 ， 我 们 已 经 学 会 了 怎样 计算 相似 度 评价 值 ， 以 及 怎样 利用 它们 对 用 户 和 物品 进行 比较 。 
本 章 介 绍 了 两 种 不 同 的 推荐 算法 ， 基 于 用 户 的 推荐 算法 和 基于 物品 的 推荐 算法 ， 还 介绍 了 
记录 用 户 偏好 信息 的 方法 ， 以 及 使 用 del.icio.us AP] 构建 链接 推荐 系统 的 方法 。 在 第 3 章 
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中 ,我 们 将 会 看 到 如 何以 本 章 中 的 某 些 观点 为 基础 ， 运 用 无 监督 聚 类 算法 《unsupervised 
clustering algorithms) 来 查找 相近 的 用 户 组 。 第 9 章 中 ， 我 们 将 会 考查 其 他 可 行 的 方法 ， 以 
实现 在 得 知人 们 偏好 类 型 的 前 提 下 对 用 户 进行 匹配 。 


练习 
Fxercts 
1, Tanimoto 分 值 ” 求 出 Tanimoto 相似 度 评 价值 。 在 何 种 情况 下 ， 我 们 可 以 将 该 方法 作为 相 


Ww 


os 


wa 


似 性 的 度量 方法 , 用 以 替代 欧 几 里 德 距离 法 或 皮尔 还 系数 法 ?请 利用 Tanimoto 分 值 建 立 
一 个 新 的 相似 度 函 数 。 


. 标签 相似 度 ”请 使 用 delicio.us API 构造 一 个 涉及 标签 和 链接 的 数据 集 。 利用 它 来 计算 不 


同 标签 间 的 相似 度 ， 看 一 看 是 否 能 找到 相似 度 几 乎 一 样 的 情况 。 请 找 出 某 些 本 该 被 标记 
为 “programming”， 但 却 没 被 标记 的 链接 。 


. 基于 用 户 算法 的 执行 效率 ”由 于 基于 用 户 的 过 滤 算 法 ， 在 每 次 须要 推荐 时 ， 都 会 将 某 位 


用 户 与 其 他 所 有 用 户 进行 比较 ,故而 效率 低下 。 请 编写 一 个 预先 计算 用 户 相 似 度 的 函数 ， 
并 修改 涉及 推荐 的 相关 代码 ， 只 取出 当前 用 户外 的 其 他 前 5 名 用 户 来 给 出 推荐 。 


. 基于 物品 的 书签 过 滤 iA delicious 网 站 下 载 一 组 数据 , 并 将 其 加 入 数据 集中 。 建立 一 


张 “ 物 一 物 ” 表 ， 并 利用 它 为 不 同 用 户 提 供 基于 物品 的 推荐 。 将 之 与 基于 用 户 的 推荐 做 
一 个 对 比 。 


. Audioscrobbler 请 访问 http;/Avww.audioscrobbler.net, 该 网 站 拥有 一 个 由 大 群 用 户 的 音 


乐 偏好 所 构成 的 数据 集 。 利 用 网 站 提供 的 Web Services API 获取 一 组 数据 ， 并 以 此 来 构 
造 一 个 音乐 推荐 系统 。 
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第 3 章 
发 现 群 组 


Discovering Groups 


在 第 2 章 中 我 们 讨论 了 如 何 寻 找 紧密 相关 的 事物 ， 借 此 我 们 可 以 找到 在 电影 欣赏 方面 与 自 
己 有 着 相同 品味 的 人 。 本 章 对 上 一 章 中 的 思想 加 以 拓展 , 并 引入 “数据 聚 类 ”(data clustering) 
的 概念 ， 这 是 一 种 用 以 寻找 紧密 相关 的 事 、 人 或 观点 ， 并 将 其 可 视 化 的 方法 。 本 章 中 , 我 
们 将 学 习 到 如 下 内 容 : 从 各 种 不 同 的 来 源 中 构造 算法 所 需 的 数据 ， 两 种 不 同 的 聚 类 算法 ， 
更 多 有 关 距 离 度量 (distance metrics) 的 知识 ;简单 的 图 形 可 视 化 代码 ， 用 以 观察 所 生成 的 
群 组 ， 最后， 我 们 还 会 学 习 如 何 将 异常 复杂 的 数据 集 投 影 到 二 维 空间 中 。 


聚 类 时 常 被 用 于 数据 量 很 大 Agape) 的 应 用 中 。 跟 踪 消 费 者 购买 行为 的 零售 商 们 ， 
除了 利用 常规 的 消费 者 统计 人 入世 邮包 还 可 以 利用 这 些 信息 自动 检测 出 具有 相似 购买 模式 的 
消费 者 群体 。 年 龄 和 收入 都 用 大 防 人 也 许 会 有 jgRNKS 量 的 着 装 风 格 ， 但 是 通过 使 用 聚 类 算 
法 ， 我 们 就 可 以 找到 “BAG {fashion islands)” 发 出 相应 的 零售 或 市 场 策略 。 
aie ined MME IH, RIER A HILT OE A, HE 
的 研究 结果 可 以 表明 ， 了 Wee hie: 应 外 界 的 活动 ， 或 者 表明 它 
们 是 相同 生化 通路 (nog a Poa “N i, Va ea | 


因为 本 书 讨论 的 是 集体 逢 申 ， 所 





















Bet | MME 由 多 个 人 贡献 不 同 信息 的 
问题 。 第 一 个 例子 将 双 Feneri ABR MIP MICE AE, HF 
以 此 来 说 明 ， 我 们 可 neater Be SET EL a CARLE eA aT K A 
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来 进行 “学 习 "。 当 我 们 想 要 利用 这 些 方 法 中 的 任何 一 种 来 提取 信息 时 ， 我 们 可 以 传人 一 组 
输入 ， 然 后 期 望 应 用 程序 能 够 根据 其 此 前 学 到 的 知识 来 产生 一 个 输出 。 


聚 类 是 无 监督 学 习 (unsupervised leaming) 的 一 个 例子 。 与 神经 网 络 或 决策 树 不 同 , 无 监督 
学 习 算 法 不 是 利用 带 有 正确 答案 的 样本 数据 进行 “训练 "。 它 们 的 目地 是 要 在 一 组 数据 中 找 
寻 某 种 结构 ， 而 这 些 数据 本 身 并 不 是 我 们 要 找 的 答案 。 在 前 面 提 到 的 时 装 的 例子 中 ， 聚 类 
的 结果 不 会 告诉 零售 商 每 一 位 顾客 可 能 会 买 什么 ， 也 不 会 预测 新 来 的 顾客 适合 哪 种 时 尚 。 
聚 类 算法 的 目标 是 采集 数据 ， 然 后 从 中 找 出 不 同 的 群 组 。 其 他 无 监督 学 习 的 例子 还 包括 非 
负 和 矩阵 因 式 分 解 (non-negative matrix factorization ， 将 在 第 10 章 讨论 ) 和 自 组 织 映 射 
(self-organizing maps) 。 


单词 向量 

Word Vectors 

为 聚 类 算法 准备 数据 的 常见 做 法 是 定义 一 组 公共 的 数值 型 属性 ， 我 们 可 以 利用 这 些 属 性 对 
数据 项 进行 比较 。 这 很 类 似 于 我 们 在 第 2 章 中 所 采取 的 做 法 ， 在 那里 ， 我 们 比较 了 评论 者 


对 同样 一 组 影片 所 给 出 的 评分 情况 , 我 们 还 分 别 用 1 和 0 来 代表 del.icio.us 网 站 用 户 所 用 书 
签 的 存在 和 缺失 情况 。 


对 博客 用 户 进行 分 类 
Pigeonholing the Bloggers 
本 章 我 们 将 对 两 个 示例 数据 集 进行 处 理 。 在 第 一 个 数据 集中 , 被 用 来 聚 类 的 是 排名 在 前 120 


位 的 一 系列 博客 ,为 了 对 这 些 捕 客 进行 聚 类 , 我 们 需要 的 是 一 组 指定 的 词汇 在 每 个 博客 订阅 
源 中 出 现 的 次 数 。 有 关 这 一 数据 的 一 个 小 范围 的 子 集 ， 如 表 3-1 所 示 。 


表 3-1: 单词 在 博客 中 出 现 次 数 的 一 个 子 集 
ees SoS ee er So ae ies tee 


uh tt 


Quick Online Tips 


根据 单词 出 现 的 频 度 对 博客 进行 聚 类 ， 或 许可 以 帮助 我 们 分 析出 是 否 存在 这 样 一 类 博客 用 
户 ， 这 些 人 经 常 撰写 相似 的 主题 ， 或 者 在 写作 风格 上 十 分 类 似 。 这 样 的 分 析 结 果 对 于 搜索 、 
分 类 和 挖 据 当前 大 量 的 在 线 博客 而 言 ， 可 能 是 非常 有 价值 的 。 , 


为 了 构造 这 样 一 个 数据 集 ， 可 能 须要 下 载 一 系列 博客 订阅 源 ， 从 中 提取 出 文本 ， 并 据 此 建 
立 起 一 个 单词 频 度 表 。 如 果 你 想 跳 过 数据 集 的 构造 环节 ， 那 么 也 可 以 去 http//kiwitobes. 
com/clusters/blogdata. txt 下 载 现成 的 数据 集 。 
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对 订阅 源 中 的 单词 进行 计数 


Couming the Words in a Feed 


几乎 所 有 的 博客 都 可 以 在 线 阅 读 ， 或 者 通过 RSS 订阅 源 进行 阅读 。RSS 订阅 源 是 一 个 包含 
博客 及 其 所 有 文章 条 目 信 息 的 简单 的 XML 文档 。 为 了 给 每 个 博客 中 的 单词 计数 ,首先 第 一 
步 就 是 要 解析 这 些 订阅 源 。 所 幸 的 是 ， 有 一 个 非常 不 错 的 程序 能 够 完成 这 项 工作 ， CRE 
Universal Feed Parser， 我 们 可 以 从 http//www.feedparser.org + FREE. 


有 了 Universal Feed Parser， 我 们 就 可 以 很 轻松 地 从 任何 RSS 或 Atom 订阅 源 中 得 到 标题 、 
链接 和 文章 的 条 目 了 。 下 一 步 ， 我 们 来 编写 一 个 从 订阅 源 中 提取 所 有 单词 的 函数 。 请 新 建 
一 个 名 为 generatefeedvector py 的 文件 ， 并 加 入 下 列 代码 : 


import feedparser 
import re 


# 返回 一 个 RSS 订阅 源 的 标题 和 包含 单词 计数 情况 的 字典 
def getwordcounts (url): 

# 解析 订阅 源 

d=feedparser.parse (url) 

wo={} 


# 循环 遍历 所 有 的 文章 条 目 

for e in d.entries: 
if ‘summary' in e: summary=e.summary 
else: summary=e.description 


# 提取 一 个 单词 列表 
words=getwords(e.title+' '+summary) 
for word in words: 
we.setdefault (word, 0) 
we [word) +=1 
return d.feed.title,wce 


每 个 RSS 和 Atom 订阅 源 都 会 包含 一 个 标题 和 一 组 文章 条 目 。 通 常 ， 每 个 文章 条 目 都 有 一 
段 摘 要 ， 或 者 是 包含 了 条 目 中 实际 文本 的 描述 性 标签 。 函 数 getwordcounts 将 摘要 传 给 函 
数 getwords, 后 者 会 将 其 中 所 有 的 HTML 标记 剥离 掉 , 并 以 非 字母 字符 作为 分 隔 符 拆 分 出 
单词 ， 再 将 结果 以 列表 的 形式 加 以 返回 。 请 将 getworas 函数 加 入 generatefeedvector.py 中 : 
def getwords (html): 
# 去 除 所 有 HTML 标记 


txt=re.compile(r'<[*>]+>').sub('',html) 


# 利用 所 有 非 字 母 字 符 拆 分 出 单词 


words=re.compile(r' (*A-Z*a-z]+"').split (txt) 


# 转化 成 小 写 形式 


return [word.lower() for word in words if word!=''] 


为 了 开始 下 一 步 工 作 ， 我 们 现在 需要 一 个 订阅 源 的 列表 。 如 果 愿 意 的 话 ， 我 们 也 可 以 自己 
构造 包含 博客 订阅 源 的 URL 列表 ， 否 则 我 们 可 以 使 用 一 个 预先 构造 好 的 列表 ， 该 列表 包含 
有 100 个 RSS 的 URL。 为 了 构造 这 一 列表 ,我们 选取 了 目前 被 引用 最 多 的 所 有 博客 的 订阅 
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源 ， 并 从 中 去 除了 某 些 未 包含 文章 正文 ， 或 者 正文 内 容 几 平 都 是 图 片 信息 的 订阅 源 。 我 们 
可 以 从 http://kiwitobes.com/clusters/feedlist.txt 下 载 到 此 列表 。 


这 是 一 个 普通 的 文本 文件 ， 每 一 行 对 应 一 个 URL。 如 果 我 们 拥有 自己 的 博客 ,或 者 有 一 些 
博客 是 我 们 特别 喜欢 的 ， 同 时 很 想 看 看 它们 和 某 些 热门 博客 的 对 比 情况 如 何 ， 那 么 我 们 也 
可 以 将 这 些 博客 的 URL 加 入 到 文件 中 。 


generatefeedvector py 文件 中 的 主体 代码 (这 些 代码 不 单独 构成 一 个 函数 ) 循环 遍历 订阅 源 
并 生成 数据 集 。 代 码 的 第 一 部 分 遍历 feedlist.txt 文件 中 的 每 一 行 ， 然 后 生成 针对 每 个 博客 的 
单词 统计 ， 以 及 出 现 这 些 单词 的 博客 数目 (apcount )。 请 将 下 列 代码 加 入 到 generate- 
feedvector.py 文件 的 末尾 : 


apcount={} 
wordcounts={ } 
feedlist=[(line for line in file('feedlist.txt')] 
for feedurl in feedlist: 
title, wc=getwordcounts (feedurl) 
wordcounts [title] =we 
for word,count in wc.items(): 
apcount.setdefault (word, 0) 
if count>l1: 
apcount [word] +=1 


下 一 步 ， 我 们 来 建立 一 个 单词 列表 ， 将 其 实际 用 于 针对 每 个 博客 的 单词 计数 。 因 为 像 “the” 
这 样 的 单词 几乎 到 处 都 是 ， 而 像 “flim-flam” 这 样 的 单词 则 有 可 能 只 出 现在 个 别 捕 客 中 , 所 
以 通过 只 选择 介 于 某 个 百分比 范围 内 的 单词 ， 我 们 可 以 减少 须要 考查 的 单词 总 量 。 在 本 例 
中 ， 我 们 可 以 将 10% 定 为 下 界 ， 将 50% 定 为 上 界 ， 不 过 假如 你 发 现 有 过 多 常见 或 鲜 见 的 单 
词 出 现 ， 不 妨 尝试 一 下 不 同 的 边界 值 。 

wordlist=[] 

for wbc in apcount.items(): 


frac=float (bc) /len(feedlist) 
if frac>0.1 and frac<0.5: wordlist.append (w) 


最 后 ， 我 们 利用 上 述 单词 列表 和 博客 列表 来 建立 一 个 文本 文件 ， 其 中 包含 一 个 大 的 矩阵 ， 
记录 着 针对 每 个 博客 的 所 有 单词 的 统计 情况 ， 


out=file('blogdata.txt', 'w') 
out.write("Blog') 
for word in wordlist: out.write('\t%ts' % word) 
out.write('’\n") 
for blog,wc in wordcounts.items(): 
out.write (blog) 
for word in wordlist: 
if word in we: out.write('\t%d’ % wc[word]) 
else: out.write('\t0') 
out.write('\n") 


为 了 生成 单词 计数 文件 ， 请 在 命令 行 运行 generatefeedvector.py 文件 : 
c:\code\blogcluster>python generatefeedvector.py 
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下 载 所 有 订阅 源 可 能 须要 花 几 分 钟 的 时 间 ， 这 一 过 程 最 终 将 会 生成 一 个 名 为 blogdata.txt 的 
输出 文件 。 请 打开 文件 验证 一 下 ， 是 否 包含 一 个 以 制 表 符 分 隔 的 表格 ， 其 中 的 每 一 列 对 应 
一 个 单词 ， 每 一 行 对 应 一 个 博客 。 本 章 中 出 现 的 函数 都 将 统一 采用 这 一 文件 格式 ， 日 后 我 
们 还 可 以 据 此 来 构造 新 的 数据 集 ， 我 们 甚至 还 可 以 将 一 个 电子 表格 另存 为 如 此 格式 的 文本 
文件 ， 并 沿用 本 章 中 的 算法 对 其 实施 聚 类 。 


分 级 聚 类 


| Clustering 


分 级 聚 类 通过 连续 不 断 地 将 最 为 相似 的 群 组 两 两 合并 ， 来 构造 出 一 个 群 组 的 层级 结构 。 其 
中 的 每 个 群 组 都 是 从 单一 元 素 开始 的 ， 在 本 章 的 例子 中 ， 这 个 单一 元 素 就 是 博客 。 在 每 次 
迭代 的 过 程 中 ， 分 级 聚 类 算法 会 计算 每 两 个 群 组 间 的 距离 ， 并 将 距离 最 近 的 两 个 群 组 合并 
成 一 个 新 的 群 组 。 这 一 过 程 会 一 直 重复 下 去 ， 直 到 只 剩 一 个 群 组 为 止 。 如 图 3-1 所 示 。 





图 3-1: 分 级 聚 类 的 过 程 


在 上 图 中 ， 元 素 的 相似 程度 是 通过 它们 的 相对 位 置 来 体现 的 一 一 两 个 元 素 距离 越 近 ， 它 们 
就 越 相似 。 开 始 时 ， 群 组 还 只 有 一 个 元 素 。 在 第 二 步 中 ,我们 可 以 看 到 A 和 B， 这 两 个 紧 
靠 在 一 起 的 元 素 ， 已 经 合并 成 了 一 个 新 的 群 组 ， 新 群 组 所 在 的 位 置 位 于 这 两 个 元 素 的 中 间 。 
在 第 三 步 中 ， 新 群 组 又 与 C 进行 了 合并 。 因 为 D 和 EE 现 在 是 距离 最 近 的 两 个 元 素 ， 所 以 它 
们 共同 构成 了 一 个 新 的 群 组 。 最 后 一 步 将 剩 下 的 两 个 群 组 合并 到 了 一 起 。 
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通常 ， 待 分 级 聚 类 完成 之 后 ， 我 们 可 以 采用 一 种 图 形 化 的 方式 来 展现 所 得 的 结果 ， 这 种 图 
被 称 为 树 状 图 (dendrogram) ,图 中 显示 了 按 层级 排列 的 节点 。 上 述 例子 中 的 树 状 图 如 图 3-2 
所 示 。 





3-2: 树 状 图 是 分 级 聚 类 的 一 种 可 视 化 形式 


树 状 图 不 仅 可 以 利用 连 线 来 表达 每 个 聚 类 的 构成 情况 ， 而 且 还 可 以 利用 距离 来 体现 构成 聚 
类 的 各 元 素 间 相隔 的 远近 。 在 图 中 ， 聚 类 AB 与 A AB 之 间 的 距离 要 比 聚 类 DE 与 D 和 E 
之 间 的 距离 更 加 接近 。 这 种 图 形 绘制 方式 能 够 帮助 我 们 有 效 地 确定 一 个 聚 类 中 各 元 素 间 的 
相似 程度 ， 并 以 此 来 指示 聚 类 的 紧密 程度 。 


本 节 我 们 将 示范 如 何 对 博客 数据 集 进 行 聚 类 ， 以 构造 博客 的 层级 结构 ， 如 果 构 造成 功 ， 我 
们 将 实现 按 主 题 对 博客 进行 分 组 。 首 先 ， 我 们 需要 一 个 方法 来 加 载 数据 文件 。 请 新 建 一 个 
名 为 clusters.py 的 文件 ， 将 下 列 函 数 加 入 其 中 ， 


def readfile(filename): 
lines=[line for line in file(filename) ] 


# 第 一 行 是 列 标题 
colnames=lines[0].strip().split('\t')(1:] 
rownames=[] 
data=[] 
for line in lines[1:]: 
p=line.strip().split('\t’') 
# 每 行 的 第 一 列 是 行 名 
rownames .append(P[0]) 


# 剩余 部 分 就 是 该 行 对 应 的 数据 
data.append([float(x) for x in p[1:]]) 
return rownames,colnames,data 


上 述 函 数 将 数据 集中 的 头 一 行 数 据 读 入 了 一 个 代表 列 名 的 列表 ， 并 将 最 左边 一 列 读 人 了 一 
个 代表 行 名 的 列表 ， 最 后 它 又 将 剩 下 的 所 有 数据 都 放 入 了 一 个 大 列表 ， 其 中 的 每 一 项 对 应 
于 数据 集中 的 一 行 数据 。 数 据 集中 任 一 单元 格 内 的 计数 值 ， 都 可 以 由 一 个 行 号 和 列 号 来 唯 
一 定位 ， 此 行 号 和 列 号 同时 还 对 应 于 列表 rownames 和 colnames 中 的 索引 。 
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下 一 步 我 们 来 定义 紧密 度 (closeness)。 我 们 曾 在 第 2 章 讨论 过 这 一 问题 ， 在 那 一 章 中 我 们 
以 欧 几 里 德 距离 和 皮尔 逊 相 关 度 为 例 对 两 位 影评 者 的 相似 程度 进行 了 评价 。 在 本 章 的 例子 
中 ,一 些 博客 比 其 他 博客 包含 更 多 的 文章 条 目 ， 或 者 文章 条 目的 长 度 比 其 他 博客 的 更 长 ， 
这 样 会 导致 这 些 博 客 在 总 体 上 比 其 他 博客 包含 更 多 的 词汇 。 皮 尔 逊 相关 度 可 以 纠正 这 一 问 
题 ， 因 为 它 判断 的 其 实 是 两 组 数据 与 某 条 直线 的 拟 合 程度 。 此 处 ， 皮 尔 还 相关 度 的 计算 代 
码 将 接受 两 个 数字 列表 作为 参数 ， 并 返回 这 两 个 列表 的 相关 度 分 值 : 

from math import sqrt 

def pearson(vl,v2): 

+ ARE 


sumissum (v1) 
sum2=sum (v2) 


t 求 平 方 和 
sum1Sq=sum([{pow(v,2) for v in vl)) 
sum2Sq=sum([pow(v,2) for v in v2]) 


E 求 来 积 之 和 


pSum=sum( {v1i[i]*v2{i] for i in range(len(vl)))) 


# 计算 rr (Pearson score) 

num=pSum- (suml*sum2/len (v1) ) 

den=sqrt { (sum1Sq-pow (sum1, 2) /len(v1)) * (sum2Sq-pow (sum2, 2) /len(v1))) 
if den==0: return 0 


return 1,0-num/den 


请 记 住 皮尔 逊 相关 度 的 计算 结果 在 两 者 完全 匹配 的 情况 下 为 1.0， 而 在 两 者 毫 无 关系 的 情况 
下 则 为 0.0。 上 述 代码 的 最 后 一 行 ， 返 回 的 是 以 1.0 减 去 皮尔 还 相关 度 之 后 的 结果 ， 这 样 做 
的 目的 是 为 了 让 相似 度 越 大 的 两 个 元 素 之 间 的 距离 变 得 更 小 。 


分 级 聚 类 算法 中 的 每 一 个 豪 类 ， 可 以 是 树 中 的 枝 节点 ， 也 可 以 是 与 数据 集中 实际 数据 行 相 
对 应 的 叶 节点 〈 在 本 例 中 ， 即 为 一 个 博客 ) 。 每 一 个 聚 类 还 包含 了 指示 其 位 置 的 信息 ， 这 一 
信息 可 以 是 来 自 叶 节点 的 行 数据 ， 也 可 以 是 来 自 枝 节点 的 经 合并 后 的 数据 。 我 们 可 以 新 建 
一 个 bicluster 类 ,将 所 有 这 些 属性 存放 其 中 , 并 以 此 来 描述 这 棵 层级 树 。 请 在 clusters.py 
中 新 建 一 个 类 ， 以 代表 “ 聚 类 ”这 一 类 型 
class bicluster: 
def _init _(self,vec, left=None, right=None, distance=0.0, id=None) : 

self.left=left 

self.right=right 

self.vec=vec 

self.id=id 

self.distance=distance 


分 级 聚 类 算法 以 一 组 对 应 于 原始 数据 项 的 聚 类 开始 。 函 数 的 主 循环 部 分 会 尝试 每 一 组 可 能 
的 配对 并 计算 它们 的 相关 度 ， 以 此 来 找 出 最 佳 配对 。 最 佳 配 对 的 两 个 聚 类 会 被 合并 成 一 个 
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新 的 聚 类 。 新 生成 的 聚 类 中 所 包含 的 数据 ， 等 于 将 两 个 旧 聚 类 的 数据 求 均值 之 后 得 到 的 结 
果 。 这 一 过 程 会 一 直 重 复 下 去 ， 直 到 只 剩 下 一 个 聚 类 为 止 。 由 于 整个 计算 过 程 可 能 会 非常 
耗 时 ， 所 以 不 妨 将 每 个 配对 的 相关 度 计算 结果 保存 起 来 ， 因 为 这 样 的 计算 会 反复 发 生 ， 直 
到 配对 中 的 某 一 项 被 合并 到 另 一 个 聚 类 中 为 止 。 


请 将 hcluster 算法 加 入 clusters.py 文件 中 : 


def hcluster (rows,distance=pearson): 
distances={} 
currentclustid=-1 


# 最 开始 的 聚 类 就 是 数据 集中 的 行 


clust=[bicluster(rows[i],id=i) for i in range (len{rows))] 


while len(clust)>1: 
lowestpair=(0,1) 
closest=distance(clust[0].vec,clust[1].vec) 


# 遍历 每 一 个 配对 ， 寻 找 最 小 距离 
for i in range(len(clust)): 
for j in range(itl,len(clust)): 
# Al distances 来 缓存 距离 的 计算 值 
if (clust{i].id,clust[j].id) not in distances: 
distances [ (clust [i] .id,clust [j] .id) ]=distance(clust [i] .vec, clust [j] .vec) 


d=distances[(clust[i].id,clust[j].id)] 


if d<closest: 
closest=d 
lowestpair=({i,j) 


# 计算 两 个 聚 类 的 平均 值 

mergevec=[ 

(clust [lowestpair[0]].vec[i]+clust[lowestpair[1]].vec[i])/2.0 
for i in range(len(clust[0].vec))] 


# PLMHHKRK 

newcluster=bicluster (mergevec, left=clust[lowestpair(0]], 
right=clust[lowestpair([1]], 
distance=closest, id=currentclustid) 


# 不 在 原始 集合 中 的 聚 类 ， 其 id 为 负数 
currentclustid-=1 

del clust[lowestpair[1]] 

del clust[lowestpair[0] ] 
clust.append (newcluster) 


return clust[0] 


因为 每 个 聚 类 都 指向 构造 该 聚 类 时 被 合并 的 另 两 个 聚 类 ， 所 以 我 们 可 以 递归 搜索 由 该 函数 
最 终 返 回 的 聚 类 ， 以 重建 所 有 的 聚 类 及 叶 节 点 。 
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为 了 运行 分 级 聚 类 算法 ， 须 要 启动 一 个 Python 会 话 ， 将 该 文件 加 载 进来 ， 然 后 针对 试验 数 
据 ， 调 用 hcluster 方法 : 

$ python 

>> import clusters 


>> blognames , words ,data=clusters.readfile('blogdata.txt') 
>> clust=clusters.hcluster (data) 


执行 过 程 也 许 会 花费 一 定 的 时 间 。 将 距离 值 保存 起 来 可 以 极 大 地 加 快 执行 速度 ， 但 是 对 于 
算法 而 言 ， 计 算 每 一 对 博客 的 相关 度 仍然 是 必要 的 。 为 了 加 快 这 一 过 程 ,. 我 们 可 以 借助 外 
部 库 来 计算 距离 值 。 为 了 检视 执行 的 结果 ， 我 们 可 以 编写 一 个 简单 的 函数 ， 递 归 遍 历 聚 类 
树 ,并 将 其 以 类 似 文件 系统 层级 结构 的 形式 打印 出 来 。 请 将 printclust 函数 添加 到 clusters. 
py 中 : 


def printclust (clust, labels=None,n=0): 
+ +) A MRA LAMA A 
for iin range(n): print ' ', 
if clust.id<0: 
# 负数 标记 代表 这 是 一 个 分 支 
print ‘-' 
else: 


E 正 数 标记 代表 这 是 一 个 叶 节点 
if labels==None: print clust.id 
else: print labels[clust.id] 


# 现在 开始 打印 右 侧 分 支 和 左 侧 分 支 
if clust.left!=None: printclust(clust.left, labels=labels,n=n+1) 
if clust.right!=None: printclust(clust.right, labels=labels,n=n+1) 


这 样 的 输出 结果 看 起 来 不 是 非常 的 美观 ， 并 且 对 于 读 取 博 客 列表 这 样 的 大 数据 集 而 言 ， 这 
种 做 法 会 比较 困难 ， 不 过 它 确 实 为 我 们 提供 了 一 个 有 关 聚 类 算法 是 否 工 作 良好 的 大 体感 觉 。 
在 下 一 节 ， 我 们 将 会 看 到 如 何 建 立 一 个 图 形 版 本 的 聚 类 树 ， 这 棵 树 更 容易 阅读 ， 而 且 能 够 
按 比例 缩放 ， 从 而 可 以 显示 出 每 个 聚 类 的 整体 布局 。 


在 Python 会 话 中 ， 请 针对 此 前 构造 好 的 聚 类 调用 上 述 函 数 : 


>> reload(clusters) 
>> clusters.printclust (clust, labels=blognames) 


由 于 输出 列表 包含 了 所 有 的 100 个 博客 ， 因 此 它 非常 元 长 。 下 面 是 我 们 在 运行 上 述 数据 集 
时 ， 从 中 找到 的 一 个 聚 类 示例 ; 


John Battelle's Searchblog 


Search Engine Watch Blog 


Read/WriteWeb 


Official Google Blog 


Search Engine Roundtable 


Google Operating System 
Google Blogoscoped 
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此 处 列 出 的 是 集合 中 的 原始 数据 项 。 破 折 号 代表 的 ， 是 由 两 个 或 更 多 项 合并 而 成 的 聚 类 。 
这 是 一 个 极 好 的 寻找 群 组 的 例子 ， 而 且 从 中 我 们 还 可 以 发 现 ， 有 如 此 众多 与 搜索 相关 的 博 
客 (search-related blogs) 会 出 现在 最 为 热门 的 博客 订阅 源 中 。 通 过 仔细 观察 ， 我 们 还 应 该 
能 够 从 中 找到 政治 类 博客 的 聚 类 、 技 术 类 博客 的 聚 类 ， 以 及 与 撰写 博客 相关 的 聚 类 。 


另外 ， 从 上 述 结果 中 我 们 可 能 也 会 注意 到 一 些 例外 情况 。 一 些 博客 的 作者 也 许 并 没有 撰写 
过 相同 主题 的 文章 ， 但 是 聚 类 算法 却 会 判断 他 们 的 单词 频 度 具有 相关 性 。 这 有 可 能 是 博客 
作者 们 写作 风格 的 一 种 反应 ， 当 然 也 有 可 能 只 是 基于 数据 下 载 当 天 的 一 个 巧合 而 得 出 的 结 
论 。 
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借助 树 状 图 ， 我 们 可 以 更 加 清晰 地 理解 聚 类 。 人 们 通常 以 树 状 图 的 形式 来 观察 分 级 聚 类 的 
结果 ， 这 是 因为 树 状 图 可 以 在 一 个 相对 狭小 的 空间 里 展示 大 量 的 信息 。 由 于 我 们 的 树 状 图 
是 图 形 的 ， 并 且 要 被 保存 成 JPG 格式 ， 所 以 首先 须要 下 载 Python Imaging Library (PIL), 
我 们 可 从 http//pythonware.com 获取 到 该 函数 库 。 


PIL 有 一 个 针对 Windows 平台 的 安装 程序 和 一 个 针对 其 他 平台 的 源 代码 发 布 包 。 关 于 下 载 
和 安装 PIL 的 更 多 信息 ,请 见 附录 A, 借助 PIL, 我 们 可 以 非常 轻松 地 生成 带 有 文本 和 线条 
的 图 形 , 这 是 构造 树 状 图 所 必需 的 。 请 将 相关 的 import 语句 加 入 clusters.py 文件 的 开始 处 : 


from PIL import Image, ImageDraw 


首先 ， 须 要 利用 一 个 函数 来 返回 给 定 聚 类 的 总 体高 度 。 在 确定 图 形 的 整体 高 度 和 放置 不 同 
节点 的 位 置 时 ， 知 道 聚 类 的 总 体高 度 是 很 有 必要 的 。 如 果 聚 类 是 一 个 叶 节 点 〈 即 它 设 有 分 
支 )， 则 其 高 度 为 1; 否则 ， 高 度 为 所 有 分 支 高 度 之 和 。 我 们 可 以 简单 地 将 其 定义 成 一 个 递 
归 函 数 ， 并 加 入 到 clusters.py P: 
def getheight (clust): 
# 这 是 一 个 叶 节 点 吗 ? 若是 ， 则 高 度 为 1 


if clust.left==None and clust.right==None: return 1 


# 和 否则， 高 度 为 每 个 分 支 的 高 度 之 和 

return getheight(clust.left) +getheight (clust.right) 
除 此 以 外 ， 我 们 还 须要 知道 根 节 点 的 总 体 误差 。 因 为 线条 的 长 度 会 根据 每 个 节点 的 误差 进 
行 相应 的 调整 ， 所 以 我 们 须要 根据 总 的 误差 值 生成 一 个 缩放 因子 (scaling factor}。 一 个 节 
点 的 误差 深度 等 于 其 下 所 属 的 每 个 分 支 的 最 大 可 能 误差 。 


def getdepth(clust): 
# 一 个 叶 节 点 的 距离 是 0.0 


if clust.left==None and clust.right==None: return 0 
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# 一 个 校 节 点 的 距离 等 于 左右 两 侧 分 支 中 距离 较 大 者 ， 


# 加 上 该 枝 节点 自身 的 距离 
return max (getdepth (clust.left),getdepth (clust.right))+clust.distance 


函数 drawdendrogram 为 每 一 个 最 终生 成 的 聚 类 创建 一 个 高 度 为 20 像素 .宽度 固定 的 图 片 。 
其 中 的 缩放 因子 是 由 固定 宽度 除 以 总 的 深度 值得 到 的 。 该 函数 为 图 片 建立 相应 的 draw 对 象 ， 
然后 在 根 节点 的 位 置 调用 drawnode 函数 ， 并 令 其 处 于 整 幅 图 片 左 侧 正中 间 的 位 置 。 


def drawdendrogram(clust, labels, jpeg='clusters.jpg'): 
# 高 度 和 宽度 
h=getheight (clust) *20 
w=1200 
depth=getdepth (clust) 


# 由 于 宽度 是 固定 的 ， 因 此 我 们 须要 对 距离 值 做 相应 的 调整 
scaling=float (w-150) /depth 


# 新 建 一 个 白色 背景 的 图 片 
img=Image.new('RGB', (w,h), (255,255,255)) 
draw=ImageDraw. Draw (img) 


draw.line({(0,h/2,10,h/2), £ill=(255,0,0)) 


# 元 第 一 个 节点 
drawnode (draw,clust,10, (h/2),scaling, labels) 
img.save (jpeg, 'JPEG') 


此 处 最 为 重要 的 函数 是 drawnode， 它 接受 一 个 聚 类 及 其 位 置 作为 输入 参数 。 函 数 取 到 子 节 
点 的 高 度 ， 并 计算 出 这 些 节 点 所 在 的 位 置 ， 然 后 用 线条 将 它们 连接 起 来 一 一 包括 一 条 长 长 
的 垂直 线 和 两 条 水 平 线 。 水 平 线 的 长 度 是 由 聚 类 中 的 误差 情况 决定 的 。 线 条 越 长 就 越 表 明 ， 
合并 在 一 起 的 两 个 聚 类 差别 很 大 ， 而 线条 越 短 则 越 表明 ， 两 个 聚 类 的 相似 度 很 高 。 请 将 
drawnode 国 数 加 入 到 clusters.py 中 : 


def drawnode (draw,clust,x,y,scaling, labels): 
if clust.id<0: 
hl=getheight (clust.left)*20 
h2=getheight (clust.right) *20 
top=y- (hl+h2) /2 
bottom=y+ (hl+h2) /2 
# 线 的 长 度 
ll=clust.distance*scaling 
E 聚 类 到 其 于 节点 的 径直 线 
draw. line((x,topthl/2,x,bottom-h2/2), £i11=(255,0,0)) 


# 连接 左 侧 节 点 的 水 平 线 
draw.line ((x,top+h1/2,x+11,top+h1/2),fill=(255;0,;0)}} 


# 连接 右 侧 节 点 的 水 平 线 
draw. line ((x,bottom-h2/2,x+11,bottom-h2/2), fill=(255,0,0)) 
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# 调用 函数 绘制 左右 节点 

drawnode (draw, clust.left,xt+1ll,top+h1/2,scaling, labels) 

drawnode (draw, clust. right, x+ll,bottom-h2/2,scaling, labels) 
else: 


# 如 果 这 是 一 个 叶 节 点 ， 则 绘制 节点 的 标签 
draw.text ((x+5,y-7), labels[clust.id], (0,0,0)) 


为 了 生成 图 片 ， 请 在 你 的 Python 会 话 中 输入 : 


>> reload(clusters) 
>> clusters .drawdendrogram(clust,blognames , jpeg='blogclust.jpg') 


执行 上 述 代码 将 生成 一 个 包含 树 状 图 的 Dlogclust jpg 文件 。 树 状 图 的 样子 应 该 如 图 3-3 所 示 。 
为 了 更 便于 打印 , 或 者 不 至 于 太 过 凌乱 WREE, 我 们 也 可 以 修改 高 度 和 宽度 的 设置 。 
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同时 在 行 和 列 上 对 数据 进行 聚 类 常常 是 很 有 必要 的 。 当 我 们 进行 市 场 研究 的 时 人 息 ， 对 消费 
群体 进行 分 组 可 能 是 很 有 意义 的 ， 这 将 有 助 于 我 们 摸 清 消费 者 的 统计 信息 和 产品 的 状况 ， 
还 可 能 有 助 于 我 们 确定 哪些 上 架 商 品 可 以 进行 捆绑 销售 。 在 博客 数据 集中 ， 列 代表 的 是 单 
词 ， 知 道 哪些 单词 时 常会 结合 在 一 起 使 用 ， 可 能 是 非常 有 意义 的 。 


要 利用 此 前 编 好 的 函数 实现 针对 列 的 豪 类 ， 最 容易 的 一 种 方式 就 是 将 整个 数据 集 转 置 
(rotate) ， 使 列 (也 就 是 单词 ) 变 成 行 ， 其 中 的 每 一 行 都 对 应 一 组 数字 ， 这 组 数字 指明 了 某 
个 单词 在 每 篇 博客 中 出 现 的 次 数 。 请 将 下 列国 数 加 入 到 clusters.py 中 : 
def rotatematrix (data): 
newdata=([] 
for i in range(len(data[0])): 
newrow=[data[j][i] for j in range (len (data))] 


newdata. append (newrow) 
return newdata 


现在 ， 我 们 可 以 将 矩阵 进行 转 置 ， 然 后 执行 同样 的 聚 类 操作 ， 并 将 最 终 的 结果 以 树 状 图 的 
形式 绘制 出 来 。 因 为 单词 的 数量 要 比 博客 的 多 ， 所 以 整个 执行 过 程 花费 的 时 间 相对 会 更 长 
一 些 。 请 记 住 ， 因 为 矩阵 已 经 被 转 置 ， 所 以 现在 的 标签 已 不 再 是 博客 ,而 变 成 了 单词 。 
>> reload(clusters) 
>> rdata=clusters.rotatematrix (data) 


>> wordclust=clusters.hcluster (rdata) 
>> clusters .drawdendrogram(wordclust, labels=words , jpeg='wordclust . jpg') 


关于 聚 类 有 一 点 很 重要 : 当 数 据 项 的 数量 比 变量 多 的 时 候 ， 出 现 无 意义 聚 类 的 可 能 性 就 会 
增加 。 由 于 单词 的 数量 比 博客 多 很 多 , 因此 我 们 会 发 现 , 在 博客 聚 类 中 出 现 的 模式 (pattem) 
要 比 单词 聚 类 中 出 现 的 更 为 合理 。 不 过 即便 如 此 ， 我 们 还 是 会 找到 一 些 很 有 意思 的 聚 类 ， 
如 图 3-4 所 示 。 | 
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3-3: 展示 博客 聚 类 情况 的 树 状 图 
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3-4: 单词 聚 类 给 出 了 与 在 线 服务 相关 的 词汇 


上 述 聚 类 清楚 地 显示 了 ， 当 人 们 在 博客 中 探讨 在 线 服 务 或 与 Internet 相关 的 话题 时 ， 经 常会 
用 到 的 一 组 词汇 。 另 外 ， 我 们 也 可 能 会 找到 一 些 反 映 使 用 模式 (usage patterns) MRA, fil 
an “fact”, “us”, ”Say”"”、“very"， 以 及 “think"， 这 些 单词 的 出 现 说 明博 客 的 写作 风格 是 偏 
主观 的 (opinionated ) 。 


K- 均 值 聚 类 


K-Means Glustering 


分 级 聚 类 的 结果 为 我 们 返回 了 一 棵 形象 直观 的 树 ， 但 是 这 种 方法 有 两 个 缺点 。 在 没有 额外 
投入 的 情况 下 ， 树 形 视 图 是 不 会 真正 将 数据 拆 分 成 不 同 组 的 ， 而 且 该 算法 的 计算 量 非常 惊 
人 。 因 为 我 们 必须 计算 每 两 个 配对 项 之 间 的 关系 ， 并 且 在 合并 项 之 后 ， 这 些 关系 还 得 重新 
再 计算 ， 所 以 在 处 理 很 大 规模 的 数据 集 时 ， 该 算法 的 运行 速度 会 非常 缓慢 。 


除了 分 级 聚 类 外 ， 另 一 种 可 供 选 择 的 聚 类 方法 被 称 为 K- 均 值 聚 类 。 这 种 算法 完全 不 同 于 分 
级 聚 类 ， 因 为 我 们 会 预先 告诉 算法 希望 生成 的 聚 类 数量 ， 然 后 算法 会 根据 数据 的 结构 状况 
来 确定 聚 类 的 大 小 。 


K- 均 值 聚 类 算法 首先 会 随机 确定 k 个 中 心 位 置 〈 位 于 空间 中 代表 聚 类 中 心 的 点 ) ， 然 后 将 各 
个 数据 项 分 配给 最 临近 的 中 心 点 。 待 分 配 完成 之 后 ， 聚 类 中 心 就 会 移 到 分 配给 该 聚 类 的 所 
有 市 点 的 平均 位 置 处 ， 然 后 整个 分 配 过 程 重新 开始 。 这 一 过 程 会 一 直 重 复 下 去 ， 直 到 分 配 
过 程 不 再 产生 变化 为 止 。 图 3-5 显示 了 这 一 过 程 ， 其 中 涉及 了 5 个 数据 项 和 2 个 聚 类 。 


在 第 1 幅 图 中 ， 两 个 中 心 点 〈 以 黑 圆圈 显示 ) 的 位 置 是 随机 选择 的 。 第 2 幅 图 显示 了 算法 
将 每 个 数据 项 都 分 配给 了 距离 最 近 的 中 心 点 一 一 在 本 例 中 ，A 和 B 被 分 配给 了 上 方 的 中 心 
点 ，C、D 和 EE 则 被 分 配给 了 下 方 的 中 心 点 。 在 第 3 幅 图 中 ,中心 位 置 已 经 移 到 了 分 配给 原 
中 心 点 的 所 有 项 的 平均 位 置 处 。 当 再 次 进行 分 配 时 ， 我 们 可 以 看 到 现在 的 C 距离 上 方 的 中 
心 点 较 之 以 前 更 加 接近 了 ,而 D 和 EE 则 依然 是 距离 下 方 中 心 点 最 近 的 两 项 。 如 此 ， 最 终 所 
得 的 结果 是 A、B、C 在 一 个 聚 类 中 ,而 D、E 则 在 另 一 个 聚 类 中 。 


实现 K- 均 值 聚 类 算法 的 函数 与 分 级 聚 类 算法 的 一 样 ， 接 受 相同 的 数据 行 作为 输入 ， 此 外 它 
还 接受 一 个 调用 者 期 望 返回 的 聚 类 数 (k) 作为 参数 。 请 将 下 列 代码 添加 到 clusters.py 中 ; 
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图 3-5: 包含 两 个 聚 类 的 K- 均 值 聚 类 过 程 


import random 


Gef kcluster (rows, distance=pearson, k=4): 
# 确定 每 个 点 的 最 小 值 和 最 大 值 


ranges=[(min([row[i] for row in rows]),max([row[i] for row in rows])) 
for i in range(len(rows[0]))] 


# 随机 创建 个 中 心 点 
clusters=[[random.random{)*(ranges[i] [1]-ranges[i] [0])+ranges[i] [0] 
for i in range(len(rows[0]))] for j in range(k)] 


lastmatches=None 

for t in range(100): 
print ‘Iteration %d' k E 
bestmatches=[[] for i in range(k) ] 


# 在 每 一 行 中 寻找 距离 最 近 的 中 心 点 
for j in range(len(rows)): 
row=rows [j] 
bestmatch=0 
for i in range(k): 
d=distance(clusters[i], row) 
if d<distance(clusters[bestmatch],row): bestmatchri 
bestmatches [bestmatch] . append (j) 


# 如 果 结 果 与 上 一 次 相同 ， 则 整个 过 程 结 束 
if bestmatches==lastmatches: break 
lastmatches=bestmatches 
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# 把 中 心 点 移 到 其 所 有 成 员 的 平均 位 置 处 
for i in range(k): 
avgs=[0.0)*len({rows[0]) 
if len(bestmatches[i])>0: 
for rowid in bestmatches [i]: 
for m in range(len(rows[rowid])): 
avgs [m] +=rows [rowid] [m] 
for j in range(len(avgs)): 
avgs[j]/=len(bestmatches [i] ) 
clusters[i]=avgs 


return bestmatches 


上 述 代码 在 每 个 变量 的 值 域 范围 内 随机 构造 了 一 组 聚 类 。 当 每 次 迭代 进行 的 时 候 ， 算 法 会 
将 每 一 行 数据 分 配给 某 个 中 心 点 ， 然 后 再 将 中 心 点 的 数据 更 新 为 分 配给 它 的 所 有 项 的 平均 
位 置 。 当 分 配 情况 与 前 一 次 相同 时 ， 迭 代 过 程 就 结束 了 ， 同 时 算法 会 返回 k 组 序列 ， 其 中 
每 个 序列 代表 一 个 聚 类 。 与 分 级 聚 类 相 比 ， 该 算法 为 产生 最 终结 果 所 须 和 迭代 的 次 数 是 非常 
少 的 。 


由 于 函数 选用 随机 的 中 心 点 作为 开始 ， 所 以 返回 结果 的 顺序 几乎 总 是 不 同 的 。 根 据 中 心 点 
初始 位 置 的 不 同 ， 最 终 聚 类 中 所 包含 的 内 容 也 可 能 会 有 所 不 同 。 


我 们 可 以 针对 博客 数据 集 试验 一 下 该 函数 。 算 法 的 执行 速度 应 该 会 比分 级 聚 类 更 快 一 些 : 


>> reload(clusters) 
>> kelust=clusters.kcluster (data,k=10) 
Iteration 0 


>> [blognames[r] for r in kclust[0]] 

['The Viral Garden’, ‘Copyblogger’, ‘Creating Passionate Users', 'Oilman', 
"ProBlogger Blog Tips', “Seth's Blog"™] 

>> [blognames[r] for r in kclust[1]] 

FF , 


现在 ，kclust 中 应 该 包含 了 一 组 代表 聚 类 的 ID 序列 。 请 尝试 用 不 同 的 x (UE RAK, FB 
看 对 结果 会 有 怎样 的 影响 。 


针对 偏好 的 聚 类 
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如 今 人 们 对 社会 化 网 络 站 点 的 兴趣 日 渐 增 长 ， 这 其 中 最 为 人 称道 的 就 是 ， 我 们 可 以 从 网 站 
上 获取 到 越 来 越 多 的 数据 ， 而 所 有 这 些 数据 都 是 网 站 用 户 无 偿 贡 献 的 。 在 这 些 站 点 中 ， 有 
一 个 叫做 Zebo (http://www.zebo.com) 的 ， 它 鼓励 人 们 在 网 站 上 建立 账号 ， 并 将 他 们 已 经 拥 
有 的 和 希望 拥有 的 物品 列举 出 来 。 从 广告 商 或 社会 评论 家 的 角度 而 言 ， 这 些 信息 都 是 非常 * 
有 价值 的 ， 因 为 他 们 可 以 借 此 找到 方法 ， 将 偏好 相近 者 很 自然 地 分 在 一 组 。 
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获取 数据 和 准备 数据 


Getting and Preparing the Data 


本 节 我 们 将 讨论 如 何 利用 Zebo 站 点 来 构造 数据 集 ， 如 何 从 站 点 将 大 量 网 页 下 载 到 本 地 加 以 
解析 ， 并 从 中 提取 出 每 位 用 户 希 望 拥有 的 物品 。 如 果 你 想 跳 过 本 节 的 内 容 ， 也 可 以 从 
http://kiwitobes.com/clusters/zebo. txt 处 下 载 到 一 个 预先 构造 好 的 数据 集 。 


Beautiful Soup 


Beautiful Soup 是 一 个 解析 网 页 和 构造 结构 化 数据 表达 形式 的 优秀 函数 库 。 它 允许 我 们 利用 
类 型 (type) 、ID， 或 者 任何 其 他 的 属性 来 访问 网 页 内 的 任何 元 素 ， 并 获取 到 代表 其 内 容 的 
FR., Beautiful Soup 还 可 以 很 好 地 处 理 包含 不 规范 HTML 标记 的 Web 页 面 ， 当 我 们 根 
据 站 点 的 内 容 来 构造 数据 集 时 ， 这 一 点 是 非常 有 用 的 。 


我 们 可 以 从 http-//crummy.com/software/BeautifulSoup 下 载 到 Beautiful Soup。 这 是 一 个 单独 
的 Python 文件 ， 我 们 可 以 将 它 放 到 Python 库 所 在 路 径 下 ， 或 者 放 到 工作 路 径 一 一 即 启动 
Python 解释 器 的 路 径 下 。 


fF Beautiful Soup 安装 完毕 之 后 ， 我 们 就 可 以 在 Python 解释 器 中 使 用 它 了 : 


>> import urllib2 

>> from BeautifulSoup import BeautifulSoup 

>> c=urllib2.urlopen('http: //kiwitobes .com/wiki/Programming language.html') 
>> soup=BeautifulSoup(c.read()) 

>> links=soup('a') 

>> links [10] 

<a href="/wiki/Algorithm. html" title="Algorithm">algorithms</a> 

>> links[10) ['href'] $ 

u'/wiki/Algorithm.html' 


要 构造 一 个 soup 对 象 一 一 这 是 Beautiful Soup 描述 Web 页 面 的 方式 一 一 只 须 利 用 页 面 内 容 
对 其 进行 初始 化 即 可 。 我 们 可 以 将 标签 类 型 作为 参数 来 调用 soup， 比 如 上 例 中 的 “a”"， 调 
用 的 结果 将 返回 一 个 属于 该 标签 类 型 的 对 象 列 表 。 其 中 的 每 一 个 对 象 也 都 是 可 访问 的 
(addressable) ， 我 们 可 以 逐 层 深入 地 访问 到 对 象 的 属性 ， 以 及 其 下 所 属 的 其 他 对 象 。 


收集 来 自 Zebo 的 结果 
Scraping the Zebo Results 


在 Zebo 上 搜索 到 的 网 页 ， 其 结构 是 相当 复杂 的 ,但 是 我 们 很 容易 就 可 以 判断 出 页 面 的 哪些 
部 分 对 应 于 物品 的 列表 ， 因 为 它们 都 带 有 名 为 bgverdanasmall 的 CSS 类 。 我 们 可 以 利用 
这 一 点 来 提取 网 页 中 的 重要 数据 。 请 新 建 一 个 名 为 downloadzebodata.py 的 文件 ， 并 将 下 面 
的 代码 加 入 其 中 : 

from BeautifulSoup import BeautifulSoup 

import urllib2 

import re 

' chare=re.compile(r'[!-\.6]") 
itemowners={ } 
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# 要 去 除 的 单词 


dropwords=['a', 'new', 'some', ‘more’, 'my', 'own', 'the', ‘many’, ‘other', ‘another'] 


currentuser=0 
for iin range(1i,51): 
# 搜索 “用 户 希 望 拥有 的 物品 ”所 对 应 的 URL 
c=urllib2.urlopen ( 
"http: //member.zebo.com/Main?event_key=USERSEARCH&wiowiw=wiwé&keyword=car épage=%d' 
% (i)) 
soup=BeautifulSoup(c.read()) 
for td in soup('td'): 
# 寻找 带 有 bgverdanasmall 类 的 表格 单元 格 
if ('class' in dict(td.attrs) and td['class']=="bgverdanasmall'’): 
items=[re.sub(chare, '',a.contents[0].lower()).strip() for a in td('a’)] 
for item in items: 
ZRF Athi 
txt=" '.join([t for t in item.split(" ') if t not in dropwords]) 
if len(txt)<2: continue 
itemowners.setdefault (txt, {}) 
itemowners [txt] [currentuser]=1 
currentuser+=1 


上 述 代 码 将 下 载 和 解析 从 Zebo 上 搜索 到 的 包含 “用 户 希 望 拥 有 的 物品 ”的 前 50 个 页 面 。 
因为 所 有 物品 的 文字 都 是 随意 输入 的 , 所 以 须要 进行 大 量 的 清理 工作 , 其 中 包括 去 除 像 “a” 
和 “some” 这 样 的 单词 ， 去 除 标点 符号 ， 以 及 将 所 有 文本 转换 成 小 写 。 


待 完成 上 述 工作 之 后 ， 代 码 首先 会 构造 一 个 列表 ， 其 中 包含 的 是 超过 $ 个 人 都 希望 拥有 的 
物品 ， 然 后 再 构造 一 个 以 匿名 用 户 为 列 、 以 物品 为 行 的 和 矩阵， 最 后 再 将 该 矩阵 写 人 一 个 文 
件 。 请 将 下 列 代码 加 入 到 downloadzebodata.py 文件 的 末尾 处 : 


out=filel('zebo.txt','w') 
out.write('Item') 
for user in range(0,currentuser): out.write('\tU%d' % user) 
out.write('\n') 
for item,owners in itemowners.items(): 
if len(owners)>10: 
out .write (item) 
for user in range(0,currentuser) : 
if user in owners: out.write('\tl1') 
else: out.write('\t0') 
out.write('\n') 


请 在 命令 行 运行 下 列 命令 , 以 生成 一 个 与 博客 数据 集 相 同 格式 的 名 为 zebo.txt 的 文件 。 和博 
客 数 据 集 相 比 ， 此 处 唯一 的 区 别 在 于 没有 了 计数 ， 如 果 一 个 人 希望 拥有 某 件 物品 ， 那 么 我 
们 将 其 标记 为 1， 否则 就 标记 为 0 


c:\code\cluster>python downloadzebodata.py 
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定义 距离 度量 标 
Jefining a Distance Meir 
皮尔 逊 相关 度 很 适合 于 博客 数据 集 ， 该 数据 集中 所 包含 的 是 单词 的 实际 统计 值 。 而 在 此 处 ， 
数据 集 却 只 有 | 和 0 两 种 取 值 ， 分 别 代 表 着 有 或 无 。 并 且 ， 假 如 我 们 对 同时 希望 拥有 两 件 
物品 的 人 在 物品 方面 互 有 重合 的 情况 进行 度量 ， 那 或 许 是 一 件 更 有 意义 的 事情 。 为 此 ， 我 
们 采用 一 种 被 称 为 Tanimoto 系数 (Tanimoto coefficient) 的 度量 方法 ， 它 代表 的 是 交集 (只 
包含 那些 在 两 个 集合 中 都 出 现 的 项 ) 与 并 集 (包含 所 有 出 现 于 任 一 集合 中 的 项 ) 的 比率 。 
利用 如 下 两 个 向 量 ， 我 们 可 以 很 容易 的 定义 出 这 样 的 度量 : 

def tanimoto(vl,v2): 


cl,c2,shr=0,0,0 


for iin range(len(vl)): 
if vl({i]!=0: cl+=1 + 出 现在 vl 中 
if v2[i]!=0: c2+=1 # 出 现在 v2 中 
if vl[i]!=<0 and v2[i]!=0: shrt+=1 # 在 两 个 向 量 中 都 出 现 


return 1.0-(float(shr) /(cl+c2-shr) ) 


上 述 代码 将 返回 一 个 介 于 1.0 和 0.0 之 间 的 值 。 其 中 1.0 代表 不 存在 同时 喜欢 两 件 物品 的 人 ， 
而 0.0 则 代表 所 有 人 都 同时 喜欢 两 个 向 量 中 的 物品 。 


对 结果 进行 聚 类 


a ‘are 
HIG WRES 


tc 


| 
Uli 


因为 数据 的 格式 与 先前 所 用 的 相同 ， 所 以 我 们 可 以 利用 同样 的 函数 来 生成 和 绘制 分 级 聚 类 。 
利用 上 面 的 函数 并 相应 传人 两 个 向 量 ， 我 们 很 容易 就 可 以 实现 聚 类 的 功能 ， 请 将 函数 
tanimoto 加 入 到 clusters.py 中 : 

>> reload(clusters) 

>> wants,people,data=clusters.readfile('zebo.txt’) 

>> clust=clusters.hcluster (data,distance=clusters.tanimoto) 

>> clusters .drawdendrogram(clust,wants) 
上 述 代码 的 执行 会 生成 一 个 新 的 文件 ，clusters.jpg, 其 中 包含 的 聚 类 反映 了 人 们 和 希望 拥有 的 
物品 。 利 用 下 载 得 到 的 数据 集 生 成 的 结果 如 图 3-6 所 示 。 就 市 场 营 销 的 角度 而 言 ， 此 处 并 没 
有 什么 惊人 的 发 现 一 一 希望 得 到 Xbox PlayStation Portable 和 PlayStation 3 的 人 都 是 同属 于 
一 类 的 一 一 不 过 我 们 的 确 也 可 以 从 中 发 据 出 一 些 明显 的 群 组 ， 比 如 : 有些 人 雄心 勃勃 (CM, 
飞机 、 岛 屿 ) ， 有 些 人 则 热衷 于 寻找 心灵 的 慰藉 《朋友 、 爱 情 、 幸 福 )。 我 们 还 可 以 注意 到 
一 些 有 趣 的 现象 : 希望 拥有 “ 钱 ” 的 人 只 想 要 一 栋 “房子 ” ， 而 希望 拥有 “许多 钱 ” 的 人 则 
更 倾向 于 要 一 栋 “ 好 房子 ”(nice house), 


通过 改变 初始 的 搜索 条 件 , 改变 获取 到 的 网 页 数量 , 或 是 将 搜索 “我 想 拥有 的 物品 (1 want)” 
改 为 搜索 “我 所 拥有 的 物品 (I own)”"， 并 从 搜索 得 到 的 结果 中 获取 数据 ， 我 们 也 许 还 有 可 
能 会 从 中 发 现 其 他 值得 关注 的 物品 群 组 。 我们 还 可 以 尝试 将 矩阵 转 置 ， 并 对 用 户 进行 分 组 ， 
通过 收集 年 龄 信息 来 了 解 人 们 在 年 龄 上 的 划分 情况 ， 或 许 这 样 会 得 出 更 为 有 趣 的 结论 也 未 
可 知 。 
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以 二 维 形式 展现 数据 


Viewing Data in Two Dimensions 


在 本 章 中 ， 我 们 已 经 采用 了 一 种 程式 化 的 数据 可 视 化 表达 方法 ， 在 二 维 空间 中 为 大 家 演示 
了 聚 类 算法 的 运用 ， 利 用 了 不 同 物品 间 的 图 上 距离 来 指示 它们 彼此 间 的 差异 。 由 于 在 大 多 
数 真 实生 活 的 例子 中 ， 我 们 所 要 聚 类 的 内 容 都 不 只 包含 两 个 数值 ， 所 以 我 们 不 可 能 按照 前 
面 的 方法 来 采集 数据 并 以 二 维 的 形式 将 其 绘制 出 来 。 但 是 ， 为 了 要 和 弄 明 白 不 同 物品 之 间 的 
关系 ， 将 它们 绘制 在 一 页 纸 上 ， 并 且 用 距离 的 远近 来 表达 相似 程度 ， 又 是 一 种 非常 有 效 的 
做 法 。 


本 节 我 们 将 介绍 一 种 称 为 多 维 缩放 (multidimensional scaling) 的 技术 ， 利 用 这 项 技术 ， 我 
们 可 以 为 数据 集 找到 一 种 二 维 表达 形式 。 算 法 根据 每 对 数据 项 之 间 的 差距 情况 ， 尝 试 绘 制 
出 一 幅 图 来 ， 图 中 各 数据 项 之 间 的 距离 远近 ， 对 应 于 它们 彼此 间 的 差异 程度 。 为 了 做 到 这 
一 点 ， 算 法 首先 须要 计算 出 所 有 项 之 间 的 目标 距离 。 在 博客 数据 集中 ， 我 们 采用 了 皮尔 逊 
相关 度 技 术 来 对 各 数据 项 进行 比较 。 此 处 有 一 个 示例 ， 如 表 3-2 所 示 。 


表 3-2: 包含 距离 信息 的 示例 矩阵 





olalw|> 
ack 





图 3-7: 投影 到 二 维 坐标 上 的 各 数据 项 的 初始 位 置 


所 有 数据 项 两 两 间 的 当前 距离 值 都 是 根据 实际 距离 〈 即 差 平 方 之 和 ) 计算 求 得 的 ， 如 图 3-8 
所 示 。 
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图 3-8: 各 项 之 间 的 距离 


针对 每 两 两 构成 的 一 对 数据 项 ， 我 们 将 它们 的 目标 距离 与 当前 距离 进行 比较 ， 并 求 出 一 个 
误差 值 。 根 据 误差 的 情况 ， 我 们 会 按照 比例 将 每 个 数据 项 的 所 在 位 置 移 近 或 移 远 少许 量 。 
图 3-9 显示 了 我 们 对 数据 项 A 的 施 力 情况 。 图 中 A 与 B 之 间 的 距离 为 0.5， 而 两 者 的 目标 
距离 仅 为 0.2， 因 此 我 们 必须 将 A 朝 B 的 方向 移 近 一 点 才 行 。 与 此 同时 ， 我 们 还 将 A 推 离 
了 C 和 D， 因 为 它 距离 C 和 D 都 太 近 了 。 





3-9: 对 数据 项 A 的 施 力 情况 


每 一 个 节点 的 移动 ， 都 是 所 有 其 他 节点 施加 在 该 节点 上 的 推 或 拉 的 综合 效应 。 节 点 每 移动 
一 次 ， 其 当前 距离 和 目标 中 离间 的 差距 就 会 减少 一 些 。 这 一 过 程 会 不 断 地 重复 多 次 ， 直 到 
我 们 无 法 再 通过 移动 节点 来 减少 总 体 误 差 为 止 。 


实现 这 一 功能 的 函数 接受 一 个 数据 向 量 作 为 参数 ， 并 返回 一 个 只 包含 两 列 的 向 量 ， 即 数据 
项 在 二 维 图 上 的 X 坐标 和 Y 坐标 。 请 将 该 函数 添加 到 clusters.py 中 : 


def scaledown(data,distance=pearson, rate=0.01): 
n=len (data) 


# 每 一 对 数据 项 之 间 的 真实 距离 
realdist=[[distance(data[i],data[{j]} for j in range(n)] 


for i in range(0,n) Jj 


outersum=0.0 rs 
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# 随机 初始 化 节点 在 二 维 空 间 中 的 起 始 位 置 
loc=[ [random.random(),random.random{)] for i in range(n) ] 
fakedist=[[0.0 for j in range(n)] for i in range(n)] 


lasterror=None 
for m in range(0,1000): 
# 寻找 投影 后 的 距离 
for i in ranget{n): 
for j in range(n): 
fakedist [i] [j]=sqrt (sum([pow(loc[i] [x)-loc[}j) [x],2) 
for x in range(len(loc[i]))])) 


# 移动 节点 
grad=[[0.0,0.0] for i in range(n)] 


totalerror=0 
for k in range(n): 
for j in range(n): 
if j==k: continue 
# 误差 值 等 于 目标 距离 与 当前 距离 之 间 差 值 的 百分比 
errorterm= (fakedist[j] [k]-realdist[j] [k])/realdist[j] [k] 


# 每 一 个 节点 都 须要 根据 误差 的 多 少 ， 按 比例 移 离 或 移 向 其 他 节点 
grad[k] [0]+=( (loc[k] [0]-loc[j] [0]) /fakedist[j] [k] )*errorterm 
grad[k] [1]+=({loc[k] [1]-loc[(j] [1]) /fakedist[j] [k))*errorterm 


E 记录 总 的 误差 值 
totalerror+=abs (errorterm) 
print totalerror 


E 如 果 节 点 移动 之 后 的 情况 变 得 更 炎 ， 则 程序 结束 
if lasterror and lasterror<totalerror: break 
lasterror=totalerror 


# 根据 rate 参数 与 grad 值 相 素 的 结果 ， 移 动 每 一 个 节点 
for k in range(n): 

loc[k] [0] -=rate*grad[k] [0] 

loc[k] [1] -=rate*grad[k) [1] 


return loc 


为 了 看 到 函数 执行 的 效果 ， 我 们 可 以 利用 PIL 再 生成 一 幅 图 ， 根 据 新 的 坐标 值 ， 在 图 上 标 
出 所 有 数据 项 的 位 置 及 其 对 应 的 标签 。 


def draw2d (data, labels, jpeg='mds2d.jpg'): 
img=Image.new('RGB', (2000, 2000), (255,255,255) ) 
draw=ImageDraw. Draw (img) 
for i in range(len(data)): 
x=(data[i] [0)+0.5)*1000 
y= (data[i} [1])+0.5)*1000 
draw.text((x,y),labels[i), (0,0,0)) 
img. save (jpeg, 'JPEG') 
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要 运行 上 述 算法 ， 请 调用 scaledown 获得 二 维 形式 的 数据 集 ， 然 后 再 调用 drawa 将 其 给 
制 出 来 : 


>> reload(clusters) 
>> blognames, words, data=clusters.readfile('blogdata.txt') 
>> coords=clusters.scaledown (data) 


>> clusters.draw2d (coords, blognames, jpeg='blogs2d.ijpg') 


图 3-10 显示 了 多 维 缩放 算法 的 执行 结果 。 虽 然 聚 类 的 分 布 情况 没有 像 树 状 图 那样 直观 ， 但 
是 我 们 仍然 可 以 清晰 地 找 出 一 些 主 题 分 组 (topical grouping)， 比 如 靠近 顶部 的 是 与 搜索 引 
擎 相关 的 集合 。 构 成 这 一 集合 的 所 有 博客 与 政治 类 博客 及 名 人 类 博客 的 距离 都 非常 的 远 。 
假如 我 们 以 三 维 的 形式 加 以 表现 ， 也 许 聚 类 的 效果 会 更 好 ， 但 很 显然 ， 我 们 很 难 在 纸 上 将 
这 一 效果 展现 出 来 。 





aaa 


S 3-10: 部 分 博客 空间 的 二 维 表 示 形 式 
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有 关 聚 类 的 其 他 事宜 


Other Things to Cluster 


本 章 研究 了 两 个 数据 集 ， 但 是 还 有 许多 其 他 的 工作 我 们 可 以 去 做 。 我 们 可 以 对 第 2 章 中 来 
自 del.icio.us 网 站 的 数据 集 进 行 聚 类 ， 从 中 寻找 有 关 用 户 或 书签 的 分 组 。 利 用 与 将 博客 订阅 
源 转换 成 单词 向 量 同样 的 方式 ， 我 们 可 以 将 任何 一 组 下 载 到 本 地 的 网 页 解析 成 一 个 个 的 单 
词 。 


我 们 可 以 将 本 章 提供 的 这 些 思路 扩展 到 许多 不 同 的 领域 ， 从 中 寻找 到 富有 价值 的 结论 
基于 单词 的 信息 公告 栏 ,基于 各 种 数字 统计 的 来 自 Yahoo! Finance 的 公司 信息 ,以 及 Amazon 
上 的 书评 者 排行 。 同 样 ， 研 究 像 MySpace 这 样 的 大 型 社区 网 络 ， 根 据 用 户 的 好 友 关 系 ， 或 
者 是 利用 用 户 可 能 提供 的 其 他 信息 (喜欢 的 乐队 、 食 物 ， 等 等 ) 对 人 群 进行 聚 类 ， 也 是 一 
件 很 有 意思 的 事情 。 


根据 数据 项 所 包含 的 参数 信息 将 其 绘制 在 一 个 空间 范围 之 内 ， 这 样 的 概念 将 会 成 为 本 书 中 
反复 出 现 的 一 个 主题 。 多 维 缩放 是 一 种 非常 有 效 的 方法 ， 利 用 它 我 们 可 以 将 获取 到 的 数据 
集 以 一 种 易于 解释 的 方式 形象 化 地 展现 出 来 。 在 缩放 的 过 程 中 一 些 信 息 可 能 会 丢失 掉 ， 明 
白 这 一 点 非常 的 重要 ， 但 是 缩放 后 的 结果 应 该 会 更 加 有 助 于 我 们 理解 算法 的 原理 。 


练习 


rYEarCisps 





1. 请 利用 第 2 章 中 的 del.icio.us API, 构造 一 个 适合 聚 类 的 标签 数据 集 ”针对 该 数据 集 分 别 
运行 分 级 聚 类 算法 和 K- 均 值 聚 类 算法 。 


2. 请 修改 解析 博客 的 代码 ， 以 实现 针对 每 个 文章 条 目 (entries) 而 非 整个 博客 的 聚 类 来 
自 同一 博客 的 不 同 条 目 能 否 聚 类 在 一 起 ? 拥有 相同 日 期 信息 的 条 目 又 如 何 ? 


3. 请 尝试 使 用 实际 距离 , ( 即 毕 达 哥 拉 斯 距离 ) 对 博客 进行 聚 类 ”这样 会 对 结果 产生 什么 样 
的 影响 呢 ? 


4. 找到 曼哈顿 (Manhattan) 距离 的 定义 ”为 其 编写 一 个 函数 ， 看 看 它 是 如 何 影响 Zebo 数 
据 集 的 结果 的 。 


. 请 修改 上 -均值 聚 类 函数 ” 令 其 在 返回 聚 类 结果 的 同时 ， 一 并 返回 所 有 数据 项 彼此 之 间 的 
距离 总 和 ， 以 及 它们 各 自 的 中 心 点 位 置 。 


6. 待 完 成 第 5 个 练习 之 后 ”请 编写 一 个 函数 , 令 其 选择 不 同 的 x 值 来 运行 K- 均 值 聚 类 算法 
看 一 看 总 的 距离 值 是 如 何 随 着 聚 类 数 的 增加 而 改变 的 ? 当 处 于 哪个 位 置 的 时 候 ， 聚 类 数 
的 多 少 对 最 终结 果 的 影响 才 会 变 得 微乎其微 ? 


. 在 两 个 维度 上 的 多 维 缩放 易于 打印 不 过 这 项 技术 也 可 以 用 于 任意 数量 的 维度 。 请 尝试 
修改 代码 ,以 实现 在 一 个 维度 上 的 缩放 ( 即 所 有 点 都 在 一 条 直线 上 )。 再 尝试 令 其 支持 三 
个 维度 。 


wm 


~J 
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第 4 章 


搜索 与 排名 


searching and Ranking 


本 章 介绍 的 全 文 搜索 引擎 ， 允 许 人 们 在 大 量 文档 中 搜索 一 系列 单词 ， 并 根据 文档 与 这 些 单 
词 的 相关 程度 对 结果 进行 排名 。 全 文 搜索 算法 是 最 重要 的 集体 智慧 算法 之 一 ， 人 们 在 这 一 
领域 里 所 产生 的 新 想法 已 经 创造 出 了 大 量 的 财富 。 大 家 普遍 相信 ，Google 从 一 个 研究 型 项 
目 迅速 岂 起 为 世界 范围 内 最 受 欢迎 的 搜索 引擎 , 这 在 很 大 程度 上 要 归功 于 它 的 PageRank 算 
法 。 作 为 标准 算法 的 一 个 变 体 ， 我 们 将 在 本 章 中 学 习 到 一 些 有 关 PageRank 的 知识 。 


信息 检索 (Information retrieval) 是 一 个 有 着 悠久 历史 的 巨大 领域 。 本 章 仅 就 其 中 的 一 部 分 
关键 概念 加 以 解释 ， 不 过 我 个 庙 疯 地 全 妇 一 个 搜索 引擎 的 构造 过 程 ， 利 用 它 来 对 一 组 广 
档 建立 索引 (index), Jr p EEN, 尽管 我 们 在 此 处 关注 的 是 搜索 和 
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待 上 述 工作 全 部 完成 之 后 ， 剩 下 最 后 一 步 自然 是 通过 查询 返回 一 个 经 过 排序 的 文档 列表 了 。 
一 旦 建立 了 索引 ， 根 据 给 定单 词 或 词组 来 获取 文档 就 变 得 非常 简单 了 ， 而 此 处 真正 的 奥妙 
之 处 则 在 于 结果 的 排列 方式 。 我 们 可 以 选择 许多 不 同 的 度量 方法 ， 每 种 方法 都 各 有 千秋 ， 
对 它们 适当 加 以 调整 ， 就 可 以 改变 网 页 的 排名 次 序 。 通 过 对 各 种 度量 方法 的 学 习 ， 也 许 会 
使 我 们 产生 这 样 的 想法 : 为 什么 我 们 不 能 对 大 型 搜索 引擎 进行 更 多 的 有 效 控制 呢 (为 什么 
我 们 不 能 告诉 Google， 查 询 的 单词 在 搜索 时 必须 紧 挨 在 一 起 呢 ) ? 本 章 我 们 将 考查 几 种 基 
于 网 页 内 容 的 度量 方法 ， 比 如 单词 频 度 ， 然 后 再 介绍 几 种 基于 网 页 外 部 信息 的 度量 方法 ， 
如 PageRank 算法 。PageRank 算法 会 考查 其 他 网 页 对 当前 网 页 的 引用 情况 。 


在 本 章 的 最 后 ， 我 们 还 将 建立 一 个 神经 网 络 ， 用 以 对 查询 结果 进行 排名 。 通 过 了 解 人 们 在 
得 到 搜索 结果 以 后 都 点 击 了 哪些 链接 ， 神 经 网 络 会 将 搜索 过 程 与 搜索 结果 关联 起 来 。 它 会 
利用 这 一 信息 来 改变 搜索 结果 的 排列 顺序 ， 以 更 好 地 反映 人 们 过 去 的 点 击 情况 。 


为 了 运行 本 章 中 的 示例 , 我 们 须要 建立 一 个 Python 的 模块 ， 并 取 名 searchengine, PER 
两 个 类 : 一 个 用 于 检索 网 页 和 创建 数据 库 ， 另 一 个 则 通过 查询 数据 库 进 行 全 文 搜索 。 在 这 
些 示 例 中 , 我 们 会 用 到 SOLite 数据 库 , 不 过 你 可 以 轻易 地 将 其 移植 到 传统 的 C-S 数据 库 上 。 


首先 ， 请 新 建 一 个 名 为 searchengine.py 的 文件 ， 并 加 入 如 下 所 示 的 crawler 类 和 相应 的 方 
法 签名 ， 稍 后 我 们 将 进一步 完善 该 类 : 


class crawler: 
# 初始 化 crawler 类 并 传 入 数据 库 名 称 
def _init _ (self,dbname) : 
pass 


def del (self): 
pass 

def dbcommit (self): 
pass 


EHYA, ATRREAM id, HLPRRATAA, HHKMAKERFS 
def getentryid(self,table, field, value, createnew=True) : 
return None 


并 为 每 个 网 页 建立 索引 
def addtoindex(self,url,soup): 
print ‘Indexing %s' $% url 


# 从 一 个 HTML 网 页 中 提取 文字 (不 带 标 签 的 ) 
def gettextonly(self, soup): 
return None 


# 根据 任何 非 空白 字符 进行 分 词 处 理 
def separatewords (self, text): 
return None 
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# 如 果 url 已 经 建 过 索引 ， 则 返回 true 
def isindexed(self,url): 
return False 


# 添加 一 个 关联 两 个 网 页 的 链接 
def addlinkref(self,urlFrom,urlTo, linkText): 
pass 


# 从 一 小 组 由 页 开始 进行 广度 优先 搜索 ， 直 至 某 一 给 定 深度 ， 
# 期 间 为 网 页 建立 索引 

def crawl (self,pages,depth=2): 

pass 


# 创建 数据 库 表 
def createindextables (self): 
pass 


一 个 简单 的 爬虫 程序 
A Simple Crawler 


假设 现在 我 们 的 硬盘 中 并 没有 成 堆 的 HTML 文档 在 等 待 建立 索引 ， 我 将 告诉 大 家 如 何 构建 
一 个 简单 的 息 虫 程序 。 该 程序 将 接受 一 小 组 等 待 建立 索引 的 网 页 ， 然 后 再 根据 这 些 网 页 内 
部 的 链接 进而 找到 其 他 的 网 页 ， 依 此 类 推 。 这 一 过 程 被 称 为 检索 或 蛛 行 (spidering)。 


为 了 做 到 这 一 点 ， 代 码 会 通过 网 络 将 网 页 下 载 下 来 ， 并 将 网 页 递送 给 索引 程序 (indexer, 
将 在 下 一 节 中 介绍 ) ， 然 后 再 对 网 页 进行 解析 ， 找 出 所 有 指向 后 续 待 检索 网 页 的 链接 。 所 幸 
的 是 ， 有 几 个 现成 的 函数 库 可 以 有 助 于 我 们 完成 这 项 工作 。 


针对 本 章 中 给 出 的 示例 ， 笔 者 已 经 事先 建 好 了 一 份 包 含有 数 千 个 文件 的 拷贝 ， 并 将 其 置 于 
httpykiwitobes.com/wiki， 供 读者 实验 之 用 ， 这 些 文件 都 来 自 于 Wikipedia 网 站 。 


当然 ， 你 可 以 根据 自己 的 喜好 对 任何 一 组 网 页 运行 息 虫 程序 ， 不 过 假如 你 想 将 自己 的 运行 
结果 与 本 章 中 给 出 的 结果 进行 对 照 ， 那 么 不 妨 就 使 用 上 述 站 点 中 所 提供 的 数据 文件 。 


使 用 urllib2 


| 
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urllib2 是 一 个 绑 定 于 Python 的 库 ， 其 作用 是 方便 网 页 的 下 载 一 一 我 们 要 做 的 全 部 工作 就 是 
提供 一 个 URL。 本 节 中 ， 我 们 将 利用 该 函数 库 下 载 等 待 建立 索引 的 网 页 。 如 果 你 想 尝 试 一 
下 urllib2， 就 请 启动 你 的 Python 解释 器 ， 并 试 着 输入 下 列 命令 : 

>> import urllib2 

>> c=urllib2.urlopen('http://kiwitobes.com/wiki/Programming language.html') 

>> contents=c. read () 

>> print contents[0:50] 

*<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Trans' 


为 了 将 一 个 网 页 的 HTML 源码 存 和 人 字符 串 中 ， 我 们 要 作 的 全 部 工作 就 是 建立 起 一 个 指向 目 
标 地 址 的 网 络 连接 ， 然 后 再 读 取 网 页 的 内 容 。 
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爬虫 程序 的 代码 
ef Coue 


疏 虫 程序 将 用 到 曾 在 第 3 章 中 介绍 过 的 Beautiful Soup AP1， 这 是 一 个 为 网 页 建立 结构 化 表 
现形 式 的 优秀 函数 库 。 对 于 HTML 语法 不 是 很 规范 的 Web 页 面 ，Beautiful Soup 具有 很 好 
的 容错 性 ， 这 对 于 构建 耻 虫 程序 而 言 是 非常 有 用 的 ， 因 为 我 们 不 知道 即将 遇 到 的 网 页 会 是 
什么 样 的 。 有 关 下 载 和 安装 Beautiful Soup 的 更 多 信息 ， 请 见 附录 A。 


利用 urllib2 和 Beautiful Soup， 我 们 可 以 建立 起 一 个 疏 虫 程序 ， 接受 一 个 等 待 建立 索引 的 
URL 列表 ， 检 索 网 页 链接 ， 并 找 出 其 他 须要 建立 索引 的 网 页 。 首 先 ， 请 在 searchengine.py 
文件 的 首部 加 入 下 列 import 语句 : 


import urllib2 
from BeautifulSoup import * 
from urlparse import urljoin 


# 构造 一 个 单词 列表 ， 这 些 单词 将 被 忽略 


ignorewords=set (({'the', ‘of',‘to', 'and’,'a','in','is',"it"]) 


现在 ,我们 可 以 为 crawler 中 的 函数 十 入 代码 了 。 实 际 上 ，crawiler 目前 还 不 能 保存 任何 抓 取 
到 的 内 容 , 不 过 它 会 在 执行 期 间 将 URL 打印 输出 , 这 样 我 们 就 可 以 观察 到 它 的 执行 过 程 了 。 
我 们 须要 将 下 列 代 码 置 于 文件 未 尾 处 (使 其 成 为 crawler 类 的 一 部 分 ): 


def crawl (self,pages,depth=2): 
for iin range(depth): 
newpages=set () 
for page in pages: 
try: 
c=urllib2.urlopen (page) 
except: 
print “Could not open %s" % page 
continue 
soup=BeautifulSoup (c.read()) 
self .addtoindex (page, soup) 


links=soup('a') 
for link in links: 
if (‘href' in dict(link.attrs)): 
url=urljoin(page, link['href']) 
if url.find("'") !=-1: continue 
url=url.split('#')(0] # 去 掉 位 置 部 分 
if url[0:4]=='http' and not self.isindexed(url): 
newpages.add (url) 

linkText=self.gettextonly (link) 
self.addlinkref (page, url, linkText) 


self.dbcommit () 
pages=newpages 


该 函数 循环 遍历 网 页 列表 , 并 针对 每 个 网 页 调用 addtoindex 函数 (目前 该 函数 除了 将 URL 
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打印 输出 外 并 没有 做 其 他 工作 ， 不 过 下 一 节 我 们 就 将 对 其 进行 充实 )。 随 后 ， 该 函数 利用 
Beautiful Soup 取 到 网 页 中 的 所 有 链接 ,并 将 这 些 链接 加 入 到 一 个 名 为 newpages 的 集合 中 。 
在 循环 结束 之 前 ， 我 们 将 newpages 赋 给 pages， 而 后 这 一 过 程 将 再 次 循环 。 


上 述 函 数 也 可 以 采用 递归 的 形式 进行 定义 ， 如 果 是 这 样 ， 每 个 链接 就 都 会 触发 函数 的 再 次 
调用 。 但 是 ， 广 度 优先 的 搜索 方式 可 以 使 代码 的 后 续 修 改 更 为 容易 ， 我 们 可 以 一 直 持续 进 
行 检 索 ， 也 可 以 将 未 经 索引 的 网 页 列表 保存 起 来 ， 以 备 后 续 再 行 检索 之 用 。 同 时 ， 这 样 也 
避免 了 栈 溢出 的 风险 。 


可 以 在 Python 的 解释 器 中 测试 一 下 该 函数 EPRA 必要 让 检索 过 程 结束 ， 因 此 如 果 你 想 
结束 运行 ， 就 请 按 Ctrl-C) 


>> import searchengine 

>> pagelist=['http://kiwitobes.com/wiki/Perl.html'] 

>> crawler=searchengine.crawler('') 

>> crawler.crawl (pagelist) 

Indexing http://kiwitobes.com/wiki/Perl.html 

Could not open http://kiwitobes.com/wiki/Module %28programming%29.html 
Indexing http://kiwitobes.com/wiki/Open Directory Project.html 
Indexing http://kiwitobes.com/wiki/Common_Gateway_ Interface.html 


也 许 你 已 经 注意 到 某 些 网 页 有 重复 。 上 述 代 码 中 有 一 处 调用 了 另 一 个 函数 一 一 isindexed， 
该 函数 将 决定 一 个 网 页 在 被 加 入 newpages 之 前 是 否 已 经 在 近期 做 过 了 索引 。 这 样 , 我 们 就 
可 以 在 任何 时 候 针 对 任意 的 URL 列表 调用 检索 函数 ， 而 不 必 担 心 无 谓 的 重复 劳动 了 。 


建立 索引 
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接 下 来 ， 我 们 须要 为 全 文 索引 建立 数据 库 。 正 如 笔者 此 前 曾经 提 到 过 的 ， 索 引 对 应 于 一 个 
列表 ， 其 中 包含 了 所 有 不 同 的 单词 、 这 些 单 词 所 在 的 文档 ， 以 及 单词 在 文档 中 出 现 的 位 置 。 
在 本 例 中 ， 我 们 将 对 出 现在 网 页 中 的 真正 的 文本 内 容 进 行 考查 ， 并 忽略 非 文 本 元 素 。 我 们 
还 会 为 每 个 单词 建立 索引 ， 并 去 除 所 有 标点 符号 。 用 于 分 词 的 函数 不 算 高 效 ， 不 过 对 于 构 
建 一 个 初级 的 搜索 引擎 而 言 ， 这 已 经 足够 了 。 


对 不 同 数据 库 软 件 的 介绍 或 数据 库 服 务 器 的 安装 已 经 超出 了 本 书 的 讨论 范围 ， 本 章 将 向 你 
展示 利用 SQLite 保存 索引 的 方法 。SQLite 是 一 个 筷 入 式 数 据 库 ， 其 安装 过 程 非常 简单 ， 它 
将 整个 数据 库存 人 了 一 个 文件 之 中 。 由 于 SQLite 是 利用 SQL 语言 进行 查询 的 , 因此 将 示例 
代码 修改 成 使 用 其 他 数据 库 应 该 不 会 很 难 。 SQLite 的 Python 实现 被 称 为 pysqlite, 我 们 可 以 
从 http:/finitd.org/tracker/pysqlite 处 下 载 到 它 。 


pysqlite 有 一 个 Windows 安装 程序 ， 还 有 一 些 针对 其 他 操作 系统 的 安装 说 明 。 附 录 A 包含 
了 有 关 获 取 与 安装 pysqlite 的 更 多 信息 。 


待 安装 完 SQLite 之 后 ， 请 将 下 列 代码 行 加 入 searchengine py 的 起 始 处 : 


from pysqlite2 import dbapi2 as sqlite 
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我 们 还 须要 修改 _inic_、_ del ,以 及 dbcommit 方法 ， 以 便 打开 和 关闭 数据 库 ; 


Gef __init__(self,dbname): 
self .con=sqlite.connect (dbname) 


def _del__(self): 
self.con.close() 


Gef dbcommit (self): 
self .con.commit () 


建立 数据 库 Schema 


请 不 要 急 着 运行 代码 一 一 我 们 还 须要 准备 数据 库 表 。 为 了 实现 基本 的 索引 功能 , 我 们 须要 建 
立 5 张 表 。 第 一 张 表 (urllist) 保存 的 是 已 经 过 索引 的 URL 列表 。 第 二 张 表 (wordlist) 
保存 的 是 单词 列表 ， 第 三 张 表 (wordlocation) 保存 的 是 单词 在 文档 中 所 处 位 置 的 列表 。 
还 剩 下 两 张 表 则 保存 了 介 于 文档 之 间 的 链接 信息 。link 表 保 存 了 两 个 URL ID, 指明 从 一 张 
表 到 另 一 张 表 的 链接 关系 , 而 Linkwords 表 则 利用 字段 wordid 和 linkid 记录 了 哪些 单词 
与 链接 实际 相关 。 完 整 的 数据 库 schema 如 图 4-1 所 示 。 





4-1: 搜索 引擎 的 数据 库 schema 


所 有 SQLite 中 的 表 默 认 都 有 一 个 名 为 rowia 的 字段 ， 因 此 没 必 要 显 式 地 为 这 些 表 指 定 ID 
字段 。 为 了 建立 一 个 函数 将 数据 填 人 所 有 数据 表 中 ， 请 将 下 列 代码 加 入 searchengine.py X 
件 的 末尾 处 ， 使 之 成 为 crawler 类 的 一 部 分 : 


def createindextables(self): 
self.con.execute('create table urllist(url)') 
self.con.execute('create table wordlist (word) ') 
self.con.execute('create table wordlocation(urlid,wordid, location) ') 
self.con.execute('create table link(fromid integer,toid integer) ') 
self.con.execute('create table linkwords (wordid, linkid) ') 
self.con.execute('create index wordidx on wordlist (word) '} 
self.con.execute('create index urlidx on urllist(url)') 
self.con.execute('create index wordurlidx on wordlocation(wordid) ") 
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self.con.execute('create index urltoidx on link(toid)') 
self.con.execute('create index urlfromidx on link(fromid)") 
self.dbcommit () 


该 函数 的 用 途 是 为 即将 用 到 的 所 有 表 建 立 schema， 并 建立 一 些 旨 在 加 快 搜索 速度 的 索引 。 
这 些 索引 非常 重要 , 因为 数据 集 可 能 会 变 得 非常 巨大 。 在 你 的 Python 会 话 中 输入 下 列 命令 ， 
建立 一 个 名 为 searchindex.db 的 数据 库 : 

>> reload{searchengine) 


>> crawler=searchengine.crawler ('searchindex.db') 
>> crawler.createindextables () 


稍 后， 我 们 还 会 在 schema 中 再 加 入 一 张 表 ， 以 根据 外 部 回 指 链接 (inbound link) 的 计数 情 
况 来 评价 度量 值 。 


在 网 页 中 查找 单词 


Finding the Words on a Pade 


从 网 上 下 载 的 文件 都 是 HTML WAR, HPMRAKRARE. ME, WRAPS! 
范围 内 的 信息 。 我 们 首先 要 从 网 页 中 提取 出 所 有 的 文字 部 分 。 为 此 ， 我 们 可 以 对 文本 节点 
进行 搜索 ， 搜 集 所 有 的 文字 内 容 。 请 将 下 列 代 码 加 入 gettextonly AR: 
def Gettexonly(Self, soup) : 
v=soup.string 
if v==None: 
c=soup.contents 
resulttext='' 
for t inc: 
subtext=self.gettextonly (t) 
resulttext+=subtext+'\n' 
return resulttext 
else: 
return v.strip() 


该 函数 返回 一 个 长 字符 串 ， 其 中 包含 了 网 页 中 的 所 有 文字 。 它 以 递归 向 下 的 方式 对 HTML 
文档 对 象 模型 进行 遍历 ， 并 找 出 其 中 的 文本 节点 。 在 网 页 中 ， 散 布 在 各 章节 内 的 文字 内 容 
被 分 散 于 不 同 的 段落 。 为 了 利于 稍 后 某 些 度量 的 计算 ， 在 这 一 阶段 保留 各 章节 的 前 后 顺序 
是 很 重要 的 。 


接 下 来 是 separatewords 函数 ， 该 函数 将 字符 串 拆 分 成 一 组 独立 的 单词 ， 以 便 我 们 将 其 加 
入 到 索引 之 中 。 要 完美 地 做 到 这 一 点 ， 可 能 未 必 如 你 所 想 的 那样 简单 ， 已 经 有 大 量 相关 的 
研究 旨 在 改进 这 项 技术 。 不 过 ， 对 于 本 章 中 的 示例 而 言 ， 将 任何 非 字母 或 非 数字 的 字符 作 
为 分 隔 符 就 已 经 足够 了 。 我 们 还 可 以 利用 正则 表达 式 来 进行 分 词 。 请 将 separatewords 的 
定义 替换 为 下 列 代码 : 
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def separatewords(self,text): 
splitter=re.compile('\\W*') 
return (s.lower() for s in splitter.split (text) if s!=''] 


由 于 该 函数 将 任何 非 字 母 非 数字 字符 都 看 作 是 分 隔 符 ， 因 此 对 于 英文 单词 的 提取 是 不 会 有 
问题 的 ， 但 是 这 种 方式 无 法 正确 处 理 类 似 “C++” 这 样 的 词汇 (尽管 搜索 “python” 是 没有 
问题 的 )。 为 了 令 算法 更 好 地 适应 于 各 种 不 同类 型 的 搜索 ， 我 们 可 以 尝试 一 下 正则 表达 式 。 


as, 提示 : 还 有 一 项 可 能 要 做 的 工作 ， 是 利用 茶 种 词 干 提取 算法 


(stemming algorithm) 去 除 掉 单 词 的 后 缓 。 词 干 提取 算法 试图 将 单 
词 转 撞 成 对 应 的 词 干 。 例 如 : 将 单词 “indexing” 变 成 “index 。 
、 ”这样 ,人 们 在 搜索 单词 “index” 时 同样 也 会 得 到 包含 单词 “indexing” 
的 文档 .要 做 到 这 一 点 ,我 们 可 以 在 检索 文档 期 间 提 取 单 词 的 词 干 ， 
也 可 以 在 搜索 查询 期 间 提 取 单 词 的 词 干 。 有 关 词 干 提取 的 完整 讨论 
超出 了 本 章 的 讨论 范围 , 不 过 我 们 可 以 在 http/Avww.tartarus.org/~ 
martin/PorterStemmer/index.html 找到 一 个 很 有 名 的 词 干 提取 的 
Python 实现 一 一 Porter Stemmer, 


加 入 索引 


Adding to the Index 


接 下 来 ， 我 们 将 实现 adatoindex 方法 。 该 方法 会 调用 曾 在 前 面 章 节 中 定义 过 的 两 个 函数 ， 
得 到 一 个 出 现 于 网 页 中 的 单词 的 列表 。 然 后 ， 它 会 将 网 页 及 所 有 单词 加 入 索引 ， 在 网 页 和 
单词 之 间 建 立 关 联 ， 并 保存 单词 在 文档 中 出 现 的 位 置 。 对 于 本 章 的 示例 而 言 ， 单 词 的 位 置 
就 是 其 在 列表 中 的 索引 号 。 


以 下 是 addtoindex AYRE: 


def addtoindex(self,url,soup): 
if self.isindexed(url): return 
print ‘Indexing ‘+url 


# 获取 每 个 单词 
text=self.gettextonly (soup) 
words=self.separatewords (text) 


# 得 到 URL 的 ia 
urlid=self.getentryid('urllist', 'url',url) 


# 将 每 个 单词 与 该 url 关联 
for i in range(len(words) ): 
word=words [i] 
if word in ignorewords: continue 
wordid=self.getentryid('wordlist', 'word', word) 
self.con.execute("insert into wordlocation(urlid,wordid,location) \ 
values (%d,%d,%d)"* % (urlid,wordid,i)) 


同样 ， 我 们 还 须要 更 新 辅助 函数 getentryid。 该 函数 的 作用 是 返回 某 一 条 目的 ID。 如 果 
条 目 不 存在 ， 则 程序 会 在 数据 库 中 新 建 一 条 记录 ， 并 将 ID 返回 : 
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def getentryid(self,table, field, value, createnew=True) : 
cur=self.con.execute ( 
"select rowid from ts where %s='%s'" % (table, field, value) ) 
res=cur.fetchone() 
if res==None: 
cur=self.con.execute ( 
“insert into %s (%s) values ('%s')" $ (table, field, value) ) 
return cur.lastrowid 
else: 
return res([(0] 


最 后 ， 我 们 还 须要 实现 isindexed 国 数 。 该 函数 的 作用 是 判断 网 页 是 否 已 经 在 和 人 数据库， 
如 果 存 在 ， 则 判断 是 否 有 任何 单词 与 之 关联 : 
def isindexed(self,url): 
u=self.con.execute \ 
("select rowid from urllist where url='%ts'" % url) .fetchone() 
if u!=None: 
# 检查 它 是 否 已 经 被 检索 过 了 
v=self.con.execute ( 
*select * from wordlocation where urlid=%td' % u[0]).fetchone() 
if v!=None: return True 
return False 


现在 ， 我 们 可 以 再 次 执行 crawler， 并 在 程序 运行 期 间 真 正 为 网 页 建立 索引 了 。 可 以 在 你 的 
交互 会 话 中 输入 下 列 命令 : 

>> reload (searchengine) 

>> crawler=searchengine.crawler('searchindex.db') 

>> = \ 

‘ (a i ee ee er, eT 

>> crawler.crawl (pages) 
crawler 的 运行 可 能 会 花费 较 长 的 时 间 。 与 其 等 待 它 结 束 ， 笔 者 建议 大 家 不 妨 从 httpy/ 
kiwitobes.com/db/searchindex.db 处 下 载 一 份 事先 加 载 好 的 searchindex.db 拷贝 ， 并 将 其 保存 
到 你 的 Python 代码 所 在 的 同一 目录 下 。 


如 果 你 想 确认 检索 过 程 是 否 正常 执行 ， 可 以 通过 数据 库 查询 操作 ， 试 着 检查 一 下 某 个 单词 
对 应 的 条 目 : 
>> [row for row in crawler.con.execute ( 


.. ‘select rowid from wordlocation where wordid=1') ] 
((1,), (46,), (330,), (232,), (406,), (271,), (192,),... 


此 处 返回 的 是 所 有 由 包含 单词 “word"” 的 URL ID 所 构成 的 列表 ,这 意味 着 我 们 已 经 成 功 执 
行 了 一 次 全 文 搜索 。 这 是 一 个 很 好 的 开始 ， 不 过 目前 的 代码 一 次 只 能 处 理 一 个 单词 ， 而 且 
只 能 以 文档 当初 被 加 载 的 顺序 返回 文档 。 下 一 节 将 会 告诉 你 如 何 对 这 一 功能 进行 扩展 ， 实 
现在 一 次 查询 中 利用 多 个 单词 进行 搜索 。 
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现在 我 们 已 经 有 了 一 个 可 用 的 crawler 程序 和 经 过 索引 的 大 堆 文档 ， 接 下 来 可 以 开始 准备 搜 
索引 擎 的 搜索 部 分 了 。 首 先 ， 请 在 searchengine. py 中 新 建 一 个 用 于 搜索 的 类 ; 


class searcher: 
def _init_ (self, dbname) : 
self.con=sqlite.connect (dbname) 


def del (self): 
self.con.close() 


wordlocation 表 为 连接 单词 与 数据 表 提 供 了 一 种 简单 的 方法 ,这 样 一 来 ， 考 查 哪些 网 页 包 
含 某 个 单词 就 会 变 得 非常 容易 。 不 过 ， 除 非 搜索 引擎 允许 多 词 搜索 ， 否 则 其 功能 就 非常 有 
限 。 为 此 ， 我 们 须要 一 个 查询 函数 ， 接 受 一 个 查询 字符 串 作 为 参数 ， 并 将 其 拆 分 为 多 个 单 
词 ， 然 后 构造 一 个 SQL 查询 ， 只 查找 那些 包含 所 有 不 同 单词 的 URL。 请 将 该 函数 加 到 
searcher 类 的 定义 中 : 


def getmatchrows (self,q): 
六 构造 查询 的 字符 事 
fieldlist='w0.urlid’' 
tablelist='' 
clauselist='' 
wordids=[] 


# 根据 空格 拆 分 单词 
words=q.split(' ') 
tablenumber=0 


for word in words: 
# 获取 单词 的 ID 
wordrow=self.con.execute ( 
"select rowid from wordlist where word='%ts'" % word) .fetchone () 
if wordrow!=None: 
wordid=wordrow([0]) 
wordids. append (wordid) 
if tablenumber>0: 
tablelist+=',' 
clauselist+=' and ' 
clauselist+='w%td.urlid=wtd.urlid and ' & (tablenumber-1, tablénumber) 
fieldlist+=',wtd.location' % tablenumber 
tablelist+='wordlocation w%td’' $ tablenumber 
clauselist+='wtd.wordid=%td' $ (tablenumber, wordid) 
tablenumber+=1 


# 根据 各 个 组 分 ， 建 立 查询 

fullquery='select %s from ts where $s' $ (fieldlist, tablelist,clauselist) 
cur=self.con.execute (fullquery) 

rows=[row for row in cur] 


return rows, wordids 
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该 函数 看 起 来 有 一 些 复 杂 ， 不 过 它 所 和 做 的 只 是 为 列表 中 的 每 个 单词 建立 一 个 指向 
wordlocation 表 的 引用 , 并 根据 对 应 的 URL ID 将 它们 连结 起 来 进行 联合 查询 (如 图 4-2)。 


wordlocation w1 


wordid = word lid 





4-2: 针对 getmatchrows 的 数据 库 表 连接 关系 
因此 ， 一 个 涉及 两 个 单词 (对 应 ID 为 10 和 17) 的 查询 如 下 所 示 : 


select w0.urlid,w0.location,wl.location 
from wordlocation w0,wordlocation wl 
where w0.urlid=wl.urlid 

and w0.wordid=10 

and wil.wordid=17 


请 党 试 调用 一 下 该 函数 ， 开 始 我 们 的 首次 多 词 搜索 : 


>> reload (searchengine) 

>> e=ssearchengine.searcher('searchindex.db') 

>> e.getmatchrows('functional programming’) 

C(t Soe ses) o oble Ld B27; 2aah, ELY ety ZEII 
Bi, Bete ABM lae Ste ae) e de Sty OBA Nouse 


我 们 注意 到 ， 根 据 单词 位 置 的 不 同 组 合 ， 此 处 每 个 URL ID 会 返回 多 次 。 后 续 几 节 中 我 们 将 
会 介绍 几 种 对 搜索 结果 进行 排名 的 方法 。 其 中 ， 基 于 内 容 的 排名 法 (Content-based ranking) 
是 根据 网 页 的 内 容 ， 利 用 某 些 可 行 的 度量 方式 来 对 查询 结果 进行 判断 的 。 而 外 部 回 指 链 接 
排名 法 (Inbound-link ranking) 则 是 利用 站 点 的 链接 结构 来 决定 查询 结果 中 各 项 内 容 的 重要 
程度 的 。 除 此 以 外 ， 我 们 还 将 介绍 一 种 方法 ， 能 够 通过 考查 人 们 在 搜索 时 对 搜索 结果 的 实 
际 点 击 情况 ， 逐 步 改善 搜索 排名 。 


基于 内 容 的 排名 
Content-Based Ranking 


到 目前 为 止 ， 我 们 已 经 成 功 获得 了 与 查询 条 件 相 匹配 的 网 页 。 不 过 ， 其 返回 结果 的 排列 顺 
序 却 很 简单 ， 即 其 被 检索 时 的 顺序 。 而 面 对 大 量 的 网 页 ， 为 了 能 够 从 中 找 出 与 查询 真正 匹 
配 的 页 面 ， 我 们 就 必须 要 在 大 量 毫 不 相干 的 内 容 中 逐一 进行 浏览 ， 以 搜寻 任何 对 查询 条 件 
中 某 一 部 分 内 容 有 所 提 及 的 结果 。 为 了 解决 这 一 问题 ， 我 们 须要 找到 一 种 能 够 针对 给 定 查 
询 条 件 为 网 页 进行 评价 的 方法 ， 并 且 能 在 返回 结果 中 将 评价 最 高 者 排 在 最 前 面 。 


本 市 我 们 将 对 几 种 只 依据 查询 条 件 和 网 页 内 容 进行 评价 计算 的 方法 进行 考查 。 这 些 评价 度 
量 包 括 以 下 三 种 。 


单词 频 度 
位 于 查询 条 件 中 的 单词 在 文档 中 出 现 的 次 数 能 有 助 于 我 们 判断 文档 的 相关 程度 。 
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文档 位 置 
文档 的 主题 有 可 能 会 出 现在 靠近 文档 的 开始 处 。 


单词 距离 
如 果 查 询 条 件 中 有 多 个 单词 ， 则 它们 在 文档 中 出 现 的 位 置 应 该 靠 得 很 近 。 


早期 的 搜索 引擎 通常 只 利用 了 上 述 几 种 度量 方式 ， 而 且 据 此 便 能 得 到 很 有 价值 的 结果 。 后 
续 几 节 中 ， 我 们 将 会 介绍 如 何 利用 网 页 以 外 的 信息 进一步 改善 搜索 结果 ， 例 如 : 考查 外 部 
回 指 链接 (incoming link) 的 数量 和 质量 。 


首先 ， 我 们 须要 一 个 新 的 方法 ， 该 方法 将 接受 查询 请 求 ， 将 获取 到 的 行 集 置 于 字典 中 ， 并 
以 格式 化 列表 的 形式 显示 输出 。 请 将 下 列 函 数 加 入 searcher 类 中 : 


def getscoredlist{self,rows,wordids): 
totalscores=dict([(row[0],0) for row in rows]) 


E 此 处 是 稍 后 放置 评价 函数 的 地 方 
weights=[] 


for (weight,scores) in weights: 
for url in totalscores: 
totalscores([url)+=weight*scores [url] 


return totalscores 


def geturlname (self, id): 
return self.con.execute ( 
“select url from urllist where rowid=%d" % id) .fetchone() [0) 


def query (self,q): 
rows, wordids=self.getmatchrows (q) 
scores=self.getscoredlist (rows, wordids) 
rankedscores=sorted([(score,url) for (url,score) in scores.items()]),reverse=1) 
for (score,urlid) in rankedscores[0:10]: 
print '%f\t%s' % (score,self.geturlname(urlid) ) 


query 方法 现在 还 没有 对 结果 进行 任何 评价 ， 不 过 它 的 确 输出 了 URL 和 代表 评价 值 的 占 位 
符 : 

>> reload (searchengine) 

>> e=searchengine. searcher ('searchindex.db') 

>> e.query('functional programming’) 

0.000000 http://kiwitobes.com/wiki/XSLT.html 


0.000000 http://kiwitobes.com/wiki/XQuery.html 
0.000000 http://kiwitobes.com/wiki/Unified Modeling Language.html 


此 处 最 为 重要 的 函数 是 getscoredlist ， 我 们 将 在 本 池 中 实现 该 函数 。 待 我 们 加 和 评价 函 
数 以 后 ， 便 可 添加 对 weights 列表 的 调用 (以 黑体 显示 的 代码 行 )， 并 开始 获得 一 些 真 实 的 
评价 。 
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归 一 化 函数 


此 处 介绍 的 所 有 评价 方法 返回 的 都 是 包含 URL ID 与 数字 评价 值 的 字典 。 令 事情 变 得 复杂 化 
的 是 ， 有 的 评价 方法 分 值 越 大 越 好 ， 而 有 的 则 分 值 越 小 越 好 。 为 了 对 不 同方 法 的 返回 结 采 
进行 比较 ， 我 们 需要 一 种 对 结果 进行 归 一 化 处 理 的 方法 ， 即 ， 令 它们 具有 相同 的 值 域 及 变 
化 方向 。 


归 一 化 函数 将 接受 一 个 包含 ID 与 评价 值 的 字典 , 并 返回 一 个 带 有 相同 ID, 而 评价 值 则 介 于 
0 和 1 之 间 的 新 字典 。 函 数 根据 每 个 评价 值 与 最 佳 结果 的 接近 程度 (最 佳 结果 的 对 应 值 为 1)， 
对 其 做 了 相应 的 缩放 处 理 。 我 们 所 要 做 的 全 部 工作 ， 就 是 将 评价 值 列表 传 入 该 函数 ， 并 指 
明 数 值 越 小 越 好 ， 还 是 越 大越 好 : 


def normalizescores(self,scores,smalllsBetter=0): 
vsmall=0.00001 # Rm RAH 
if smallisBetter: 
minscore=min (scores.values()) 
return dict([(u,float (minscore) /max(vsmall,1l)) for (u,l) \ 
in scores.items()]) 
else: 
maxscore=max (scores.values () ) 
if maxscore==0: maxscore=vsmall 
return dict([{u,float({c)/maxscore) for (u,c) in scores.items()]) 


每 个 评价 函数 都 会 调用 该 函数 ， 将 结果 进行 归 一 化 处 理 ， 并 返回 一 个 介 于 0 和 1 之 间 的 值 。 


单词 频 度 


{ a Ge | OH 
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行 评价 。 假 如 要 搜索 “python”" ， 我 们 更 希望 得 到 的 是 一 个 内 容 中 多 次 提 到 该 单词 的 有 关 
Python (或 pythons) 语言 的 网 页 而 不 是 一 个 关于 某 位 音乐 家 的 网 页 ， 可 能 这 位 音乐 家 在 
文章 的 末尾 处 偶尔 提 到 了 他 有 一 条 宠物 蟒蛇 (译注 1)。 

单词 频 度 国 数 如 下 所 示 。 我 们 可 以 将 其 加 和 人 searcher 类 中 : 


def frequencyscore(self,rows): 
counts=dict([(row[0],0) for row in rows}) 
for row in rows: counts[row[0]]+=1 
return self.normalizescores (counts) 


该 国 数 建立 了 一 个 字典 ,其 中 包含 了 为 行 集中 每 个 唯一 的 URL ID 所 建 的 条 目 ， 函数 还 对 每 
个 单词 的 出 现 次 数 进行 了 计数 ， 随 后 又 对 评价 值 做 了 归 一 化 处 理 〈 在 本 例 中 ， 分 值 越 大 越 
好 )， 并 返回 结果 。 


为 了 在 返回 结果 中 使 用 频 度 评价 算法 ， 请 修改 getscoredlist 中 的 weights —f7; 


weights=[({1.0,self.frequencyscore (rows) ) } 


现在 ， 我 们 可 以 再 试 着 搜索 一 次 ， 看 看 这 种 评价 度量 的 效果 如 何 。 


译注 l: MHC HH XK Pp python, 
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>> reload(sSearchengine) 

>> e=searchengine. .searcher('searchindex.db') 

>> e.query('functional programming’) 

1.000000 http://kiwitobes.com/wiki/Functional_programming.html 
0.262476 http://kiwitobes.com/wiki/Categorical list_of_programming_languages .html 
0.062310 http://kiwitobes.com/wiki/Programming_language.html 

0.043976 http://kiwitobes.com/wiki/Lisp programming _language.html 
0.036394 http://kiwitobes.com/wiki/Programming_paradigm.html 


上 述 返 回 结果 将 涉及 “Functional programming” 的 网 页 放 在 了 最 前 面 ， 其 后 所 跟 的 是 另外 
几 个 相关 的 网 页 。 请 注意 ， 对 “Functional programming” 的 评价 结果 是 紧 随 其 后 者 的 4 倍 。 
大 多 数 搜索 引擎 都 不 会 将 评价 结果 告诉 最 终 用 户 ， 但 是 对 某 些 应 用 而 言 ， 这 些 评价 值 可 能 
会 非常 有 用 。 例 如 ， 也 许 我 们 希望 在 结果 超出 某 个 域 值 的 时 候 ， 直 接 向 用 户 返 回 排名 最 靠 
前 的 内 容 ， 或 者 希望 根据 返回 结果 的 相关 程度 ， 按 一 定 比 例 的 字体 大 小 加 以 显示 。 


文档 位 置 


p 
b i 


另 一 个 判断 网 页 与 查询 条 件 相关 程度 的 简单 度量 方法 ， 是 搜索 单词 在 网 页 中 的 位 置 。 通 常 ， 
如 果 一 个 网 页 与 待 搜索 的 单词 相关 ， 则 该 单词 就 更 有 可 能 在 靠近 网 页 开始 处 的 位 置 出 现 ， 
或 者 甚至 是 出 现在 标题 中 。 利 用 这 一 点 ， 搜 索引 擎 可 以 对 待 查 单词 在 文档 中 出 现 越 早 的 情 
况 给 子 越 高 的 评价 。 所 幸 的 是 ， 网 页 已 建立 了 索引 ， 单 词 在 文档 中 所 处 的 位 置 也 已 记录 了 
下 来 ， 而 网 页 的 标题 则 位 于 列表 中 的 第 一 项 。 


请 将 该 方法 加 入 searcher KH; 


def locationscore (SelLlf, rows): 
locations=dict ({(row[0],1000000) for row in rows]) 
for row in rows: 
loc=sum(row[1:]) 
if loc<locations[row[0)]: locations[row([0])=loc 


return self.normalizescores (locations, smallIsBetter=1) 


请 记 住 ， 行 集中 每 一 行 的 第 一 项 是 URL ID， 后 面 紧 跟 的 是 所 有 各 待 查 单词 的 位 置信 息 。 每 
个 ID 可 以 出 现 多 次 ， 每 次 对 应 的 是 不 同 的 位 置 组 合 。 针 对 每 一 行 ， 该 方法 将 会 计算 所 有 单 
词 的 位 置 之 和 ， 并 将 这 一 结果 与 迄今 为 止 的 最 佳 结果 进行 对 比 判 断 。 然 后 将 最 终结 果 传人 归 
一 化 处 理 函 数 之 中 。 注意, smallIsBetter 意味 着 , 位 置 之 和 最 小 的 URL 获得 的 评价 值 为 1.0。 
如 果 想 看 一 下 只 使 用 位 置 评价 法 的 效果 ， 就 请 将 weights 一 行 修改 如 下 : 


weights=[(1.0,self.locationscoóore (rows)})] 


现在 ， 请 在 解释 器 中 试 着 再 查询 一 次 : 


>> reload (searchengine) 
>> e=searchengine.searcher ('searchindex.db') 
>> @e.query('functional programming') 


基于 内 容 的 排名 | 67 


ww ai bbt. com DOOO000 


我 们 会 发 现 ,“Functional programming” 依 然 是 胜出 者 ， 不 过 其 他 位 于 前 列 的 查询 结果 现在 
已 经 变 成 了 函数 式 编程 语言 的 例子 了 。 在 上 一 次 搜索 返回 的 结果 中 ， 虽 然 待 查询 的 单词 也 
出 现 了 好 多 次 ， 但 是 这 通常 是 涉及 编程 语言 方面 的 讨论 。 而 在 本 次 搜索 中 ， 程 序 对 单词 在 
首 句 中 出 现 的 情况 给 予 了 更 高 的 评价 值 (Gildan, “Haskell is a standardized pure functional 
programming language” ) 。 


截止 目前 所 介绍 的 所 有 度量 方法 中 ， 没 有 任何 一 种 方法 对 于 每 一 种 情况 而 言 都 是 最 优 的 ， 
认识 到 这 一 点 很 重要 。 取 决 于 搜索 者 的 意图 ， 上 述 各 种 搜索 结果 都 是 有 效 的 ， 而 且 对 于 一 
组 特定 的 文档 与 应 用 而 言 ， 为 了 给 出 最 佳 结果 ， 不 同 的 加 权 组 合 也 是 必要 的 。 我 们 可 以 对 
weights 一 行 按 类 似 如 下 的 方式 进行 修改 ， 试 一 下 为 两 种 度量 分 别 配 以 不 同 的 权重 : 


weights=[(1.0,self.frequencyscore (rows) ) ， 
{1.5,self,locationscore (rows) ) ] 


请 尝试 不 同 的 权重 和 查询 ， 看 看 对 查询 结果 的 影响 如 何 。 


相 比 于 单词 频 度 ， 位 置 度量 更 难于 作假 。 网 页 的 作者 可 以 将 一 个 单词 置 于 文档 的 开始 处 ， 
然后 不 断 地 加 以 重复 ， 但 是 这 对 结果 不 会 有 任何 影响 。 


单词 距离 
Word Distance 


当 查 询 中 包含 多 个 单词 时 ， 寻 找 单词 彼此 间距 很 近 的 网 页 往往 是 很 有 意义 的 。 大 多 数 时 候 ， 
在 进行 多 词 查询 时 ， 人 们 时 常会 关注 于 那些 在 概念 意义 上 与 这 些 单词 有 关联 的 网 页 。 这 要 
比 大 多 数 搜索 引擎 所 支持 的 以 引号 相 括 的 短语 搜索 更 为 宽松 。 在 那 种 情形 下 ， 单 词 必须 以 
正确 的 顺序 出 现 ， 且 中 间 不 夹杂 任何 额外 的 单词 一 一 而 在 此 处 ， 这 种 度量 方法 将 允许 单词 
顺序 不 一 ， 也 人 允许 单词 间 夹 带 其 他 的 单词 。 


distancescore 困 数 看 起 来 非常 类 似 于 locationscore; 


def distancescoret{self,rows): 


# 如 果 仅 有 一 个 单词 ， 则 得 分 都 一 样 


if len(rows[0))<=2: return dict([({row[0],1.0) for row in rows]) 


# 初始 化 字典 ， 并 填 入 一 个 很 大 的 数 


mindistance=dict([(row[{0],1000000) for row in rows]) 


for row in rows: 
dist=sum( [abs (row[i]-row[i-1]) for i in range (2,len(row))]) 
if dist<mindistance[row[0]]: mindistance[row[0]]=dist 
return self.normalizescores (mindistance, smallIsBetter=1) 


此 处 的 主要 区 别 在 于 ， 当 函数 循环 遍历 单词 的 位 置 时 (以 黑体 显示 的 代码 行 )， 它 会 计算 出 
每 个 位 置 与 上 一 个 位 置 间 的 差距 。 由 于 查询 会 返回 每 一 种 距离 组 合 ; 因此 函数 将 确保 找 出 
总 距离 的 最 小 值 。 
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如 果 你 愿意 的 话 ， 可 以 单独 测试 一 下 单词 距离 这 一 度量 。 不 过 假如 它 与 其 他 度量 组 合 使 用 ， 
则 会 有 更 好 的 表现 。 请 尝试 将 distancescore 加 入 weights 列表 并 修改 权重 值 , 看 一 下 它 
对 不 同 的 查询 结果 有 何 影 响 。 


利用 外 部 回 指 链接 


到 目前 为 止 ， 我 们 对 评价 度量 的 讨论 都 是 基于 网 页 内 容 的 。 尽 管 许多 搜索 引擎 依然 采用 这 
种 方式 ， 不 过 我 们 往往 可 以 通过 考查 外 界 就 该 网 页 所 提供 的 信息 一 一 尤其 是 谁 链 向 了 该 网 
页 ， 以 及 他 们 对 该 网 页 的 评价 ， 来 进一步 改善 搜索 结果 。 当 对 存在 可 疑 内 容 的 网 页 或 垃圾 
内 容 制 造 者 生成 的 网 页 建立 索引 时 ， 这 一 方法 特别 管用 ， 因 为 与 包含 真实 内 容 的 网 页 相 比 ， 
这 些 网 页 被 他 人 引用 的 可 能 性 非常 的 小 。 


由 于 本 章 开 始 时 所 建立 的 网 路 爬虫 程序 早已 获取 到 与 链接 有 关 的 所 有 重要 信息 ， 因 此 我 们 
无 须 对 它 做 任何 修改 。 对 于 每 一 个 过 到 的 链接 ，1inks 表 中 记录 了 与 其 源 和 目的 相对 应 的 
URLID, mH. linkwords 表 还 记录 了 单词 与 链接 的 关联 。 


简单 计数 





处 理 外 部 回 指 链接 最 为 简单 的 做 法 ， 是 在 每 个 网 页 上 统计 链接 的 数目 ， 并 将 链接 总 数 作为 
针对 网 页 的 度量 。 科 研 论文 的 评价 就 经 常 采 用 这 样 的 方式 ， 人 们 将 论文 的 重要 程度 与 其 他 
论文 对 该 论文 的 引用 次 数 联 系 了 起 来 。 下 面 的 评价 函数 ,通过 对 查询 Link 表 所 得 行 集中 的 
每 个 唯一 的 URL ID 进行 计数 , 建立 起 了 一 个 字典 。 随后， 销 数 返回 一 个 经 过 归 一 化 处 理 的 
评价 结果 
def inboundlinkscore (self, rows): 
uniqueurls=set([row[0] for row in rows)) 
inboundcount=dict ([(u,self.con.execute( \ 
‘select count(*) from link where toid=%d' % u).fetchone()[(0]) \ 
for u in uniqueurls]) 
return self.normalizescores (inboundcount) 


很 显然 ， 单 独 使 用 这 一 度量 只 会 简单 地 返回 匹配 搜索 条 件 的 所 有 网 页 ， 这 些 网 页 仅 根据 其 
拥有 的 外 部 回 指 链接 数 进 行 排序 。 在 数据 集中 ,“Programming language” 与 “Python” 相 比 
有 更 多 的 外 部 回 指 链接 ， 但 是 假如 我 们 想 搜索 “Python ， 那 么 也 许 我 们 更 希望 在 结果 中 最 
先 看 到 的 是 与 “Python” 相 关 的 内 容 。 为 了 将 相关 性 与 排名 结合 起 来 ,我们 须要 结合 使 用 外 
部 回 指 链接 与 此 前 介绍 过 的 任何 一 种 度量 方法 。 


上 述 算法 对 每 个 外 部 回 指 链接 都 给 予 了 同样 的 权重 ， 这 样 做 即 公平 又 合理 ， 这 种 方法 在 操 
作 上 具有 开放 性 ， 因 为 如 果 人 们 和 希望 增加 某 个 网 页 的 评价 值 ， 他 们 只 须 建立 起 若干 站 点 ， 
并 将 链接 都 指向 该 网 页 即 可 。 除 此 以 外 ， 有 了 时 人 们 也 可 能 会 对 那些 受热 门 站 点 关注 的 搜索 
结果 更 加 感 兴趣 。 接 下 来 ， 我 们 将 会 看 到 在 计算 排名 的 过 程 中 ， 如 何 令 来 自 热门 网 页 的 链 
接 拥有 更 高 的 权重 值 。 
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PageRank 算法 


PageRank 算法 是 由 Google 的 创始 人 发 明 的 , 现在 基于 这 一 思路 的 各 种 变 体 已 被 所 有 大 型 搜 
索引 擎 采用 。 该 算法 为 每 个 网 页 都 赋予 了 一 个 指示 网 页 重要 程度 的 评价 值 。 网 页 的 重要 性 
是 依据 指向 该 网 页 的 所 有 其 他 网 页 的 重要 性 ， 以 及 这 些 网 页 中 所 包含 的 链接 数 求 得 的 。 


提示 : 理论 上 ，PageRank (以 其 发 明 者 之 一 Larry Page 命名 ) 计算 
的 是 菜 个 人 在 任意 次 链接 点 击 之 后 到 达 某 一 网 页 的 可 能 性 。 如 果菜 
个 网 页 拥有 来 自 其 他 热门 网 页 的 外 部 回 指 链接 越 多 , 人们 无 意 间 到 
达 该 网 页 的 可 能 性 也 就 越 大 。 当 然 ， 如 果 用 户 始 终 不 停 地 点 击 ， 那 
么 他 们 终 将 到 达 每 一 个 网 页 , 但 是 大 多 数 人 在 浏览 一 段 时 间 之 后 都 
会 停止 点 击 。 为 了 反映 这 一 情况 ，PageRank 还 使 用 了 一 个 值 为 0.85 
的 阻尼 因子 ， 用 以 指示 用 户 持 续 点 击 每 个 网 页 中 链接 的 概率 为 
85%, 


图 4-3 给 出 了 一 组 网 页 与 链接 的 例子 。 








4-3: 计算 A 的 PageRank 值 


网 页 B、C 和 D 均 指向 A， 它 们 的 PageRank 值 已 经 计算 得 出 。B 还 指向 另外 三 个 网 页 ， 而 
C 则 指向 其 他 四 个 网 页 ，D 只 指向 A。 为 了 得 到 A 的 PageRank 值 ， 我 们 将 指向 A 的 每 个 网 
页 的 PageRank (PR) 值 除 以 这 些 网 页 中 的 链接 总 数 ， 然 后 乘 以 限 尼 因子 0.85， 再 加 上 一 个 
0.15 的 最 小 值 。PR (A) 的 计算 公式 如 下 所 示 : 

PR(A) = 0.15+ 0.85 * ( PR{B)/links{B) + PR(C)/links(C) + PR(D)/links(D) ) 


3 
0.154 F85 E k LZS + dé ss 
0. 
0. 


15+ 0.85 * 0.465 
54525 
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我 们 会 发 现 ， 由 于 D 只 指向 A， 而 且 能 够 贡献 出 它 的 全 部 分 值 ， 所 以 相 比 于 B EC, RE 
D 本 身 的 PageRank 值 较 低 ， 但 是 实际 上 它 对 A 的 PageRank 值 贡献 度 更 大 。 


是 不 是 非常 简单 ? 不 过 ， 此 处 还 有 一 点 须要 注意 一 一 在 本 例 中 ， 所 有 指向 A 的 网 页 均 已 有 
了 PageRank 值 。 只 有 在 知道 了 指向 同一 网 页 的 所 有 其 他 网 页 的 评价 值 后 ， 我 们 才能 计算 出 
该 网 页 的 评价 值 。 同 样 ， 对 于 指向 这 些 网 页 的 所 有 其 他 网 页 ， 如 果 不 先 计算 它们 的 评价 值 ， 
那么 这 些 网 页 的 PageRank 值 也 是 无 法 计算 的 。 如 何 对 一 组 还 没有 PageRank 值 的 网 页 进行 
PageRank 计算 呢 ? 


解决 这 一 问题 的 方法 ， 是 为 所 有 的 PageRank 都 设置 一 个 任意 的 初始 值 〈《 示 例 代 码 中 将 使 用 
1.0， 这 对 最 终 的 实际 值 不 会 有 任何 影响 )， 然 后 反复 计算 ， 迭 代 若 干 次 。 在 每 次 进 代 期 间 ， 
每 个 网 页 的 PageRank 值 将 会 越 来 越 接近 其 真实 值 。 迭 代 所 需 的 次 数 要 视 网 页 的 数量 而 定 ， 

不 过 对 于 目前 正在 处 理 的 这 一 小 组 网 页 而 言 ，20 次 应 该 就 足够 了 。 


因为 PageRank 的 计算 是 一 项 耗 时 的 工作 ， 而 且 其 计算 结果 又 不 随 查 询 的 变化 而 变化 ,因此 
我 们 可 以 建立 一 个 函数 ， 预 先 为 每 个 URL 计算 好 PageRank 值 ， 并 将 计算 结果 存 人 数据 表 
中 。 该 函数 会 在 每 次 执行 期 间 重 新 计算 所 有 的 PageRank 值 。 请 将 下 列 函数 加 入 crawler 
类 中 : 


def calculatepagerank (self, iterations=20); 
# 清除 当前 的 PageRank A 
self.con.execute('drop table if exists pagerank') 
self.con.execute('create table pagerank(urlid primary key,score)') 


# 初始 化 每 个 url、 邻 其 PageRank 值 为 1 
self.con.execute('insert into pagerank select rowid, 1.0 from urllist') 
self.dbcommit () 


for i in range(iterations): 
print “Iteration td" % (i) 
for (urlid,) in self.con.execute('select rowid from urllist'): 
pr=0.15 


# 循环 遍历 指向 当前 网 页 的 所 有 其 他 网 页 
for (linker,) in self.con.execute ( 
"select distinct fromid from link where toid=%d' $% urlid): 
# 得 到 链接 源 对 应 网 页 的 PageRank ffi 
linkingpr=self .con.executel 
‘select score from pagerank where urlid=%d' $ linker) .fetchone() [0] 


# 根据 链接 源 ， 求 得 总 的 链接 数 
linkingcount=self.con.execute ( 
‘select count(*) from link where fromid=%d' % linker) .fetchone() [0] 
pr+=0 .85* (linkingpr/linkingcount) 
self.con.execute ( 
‘update pagerank set score=%f where urlid=%d" % (pr,urlid)) 
self.dbcommit () 
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该 函数 最 初 将 每 个 网 页 的 PageRank 值 都 设置 为 1.0。 然 后 遍历 每 个 URL， 并 针对 每 个 外 部 
回 指 链接 ， 得 到 其 PageRank 值 与 链接 的 总 数 。 以 粗 体 显示 的 代码 行 给 出 了 应 用 于 每 个 外 部 
回 指 链接 的 计算 公式 。 


运行 该 函数 将 会 花费 几 分 钟 的 时 间 ， 不 过 我 们 只 有 在 更 新 索引 时 才 须 要 做 这 项 工作 。 


>> reload (searchengine) 

>> crawler=searchengine.crawler ('searchindex.db') 
>> crawler.calculatepagerank () 

Iteration 0 

Iteration 1 


如 果 我 们 想 知道 示例 数据 集中 哪个 网 页 的 PageRank 值 最 高 ， 可 以 直接 查询 数据 库 : 


>> cur=crawler.con.execute('select * from pagerank order by score desc') 
>> for i in range(3): print cur.next() 

(438, 2.5285160000000002) 

(2, 1.1614640000000001) 

(543, 1.064252) 

>> e.geturlname (438) 

u'http://kiwitobes.com/wiki/Main_ Page.html' 


在 本 例 中 , “Main Page” ff) PageRank 值 是 最 高 的 ， 这 一 点 并 不 奇怪 ， 因 为 Wikipedia 中 的 
其 他 每 一 个 网 页 都 指向 该 页 面 ,既然 现在 我 们 已 经 拥有 了 一 张 包含 PageRank 评价 值 的 数据 
表 ， 那 么 要 利用 这 些 数据 ， 只 须 创建 一 个 函数 ， 将 评价 值 从 数据 库 中 取出 ， 然 后 对 其 做 归 
一 化 处 理 。 请 将 下 列 函 数 加 和 searcher 类 中 , 


def pagerankscore(self, rows): 
pageranks=dict ([(row[0],self.con.execute('select score from pagerank where 
urlid=%td' $ row[0]).fetchone()[0]) for row in rows]) 
maxrank=max (pageranks.values() ) 
normalizedscores=dict {[ {u, float (1) /maxrank) for (u,1) in pageranks.items()]) 
return normalizedscores 


我 们 须要 再 次 修改 weights WZ, Hf PageRank 算法 纳入 其 中 。 例 如 ， 如 下 所 示 : 


weights=[(1.0,self.locationscore(rows)), 
{1.0,self.frequencyscore (rows)), 
(1.0,self.pagerankscore (rows) ) ] 


最 终 的 搜索 结果 会 综合 考虑 网 页 内 容 与 排名 的 影响 。 现 在 ， 针 对 “Functional programming” 
的 搜索 结果 看 起 来 就 更 加 合理 了 : 


.318146 http://kiwitobes.com/wiki/Functional programming.html 

.074506 http://kiwitobes.com/wiki/Programming language.html 

.517633 http://kiwitobes.com/wiki/Categorical list of Programming languages.html 
-439568 http://kiwitobes.com/wiki/Programming paradigm. html 

-426817 http://kiwitobes.com/wiki/Lisp programming _language.html 


ooor NN 
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与 通过 Web 进行 搜索 相 比 ， 对 于 这 样 一 组 封闭 而 又 严格 受 控 的 文档 而 言 ， 其 中 所 包含 的 无 
用 网 页 和 蓄意 引起 大 家 注意 的 网 页 可 能 很 少 , 因此 要 想 从 中 看 出 PageRank 评价 方法 的 价值 
是 有 些 困 难 的 。 不 过 即便 如 此 ， 我 们 依然 可 以 从 中 看 出 ， 对 于 返回 更 高 层次 和 更 大 众 化 的 
网 页 而 言 ， PageRank 无 疑 是 一 种 有 效 的 度量 方法 。 


利用 链接 文本 


另 一 种 对 搜索 结果 进行 排名 的 非常 有 效 的 方法 ， 是 根据 指向 某 一 网 页 的 链接 文本 来 决定 网 
页 的 相关 程度 。 大 多 数 时 候 ， 相 比 于 被 链接 的 网 页 自身 所 提供 的 信息 而 言 ， 我 们 从 指向 该 
网 页 的 链接 中 所 得 到 信息 会 更 有 价值 。 因 为 针对 其 所 指向 的 网 页 ， 网 站 的 开发 者 们 会 倾向 
于 提供 一 些 解释 其 内 容 的 简短 描述 。 


根据 链接 的 文本 对 网 页 进行 评价 的 方法 接受 一 个 额外 的 参数 ,该 参数 是 一 个 单词 ID 的 列表 ， 
这 是 在 我 们 执行 查询 时 构造 的 。 我 们 可 以 将 该 方法 加 入 searcher H: 
def linktextscore (self, rows,wordids): 
linkscores=dict([(row[0}],0) for row in rows]) 
for wordid in wordids: 
cur=self.con.execute('select link. fromid, link.toid from linkwords, link where 
wordid=%d and linkwords.linkid=link.rowid' % wordid) 
for (fromid,toid) in cur: 
if toid in linkscores: 
pr=self.con.execute('select score from pagerank where urlid=%d' $ fromid). 
fetchone () [0] 
linkscores[toid]+=pr 
maxscore=max (linkscores.values() ) 
normalizedscores=dict ([ (u, float (1) /maxscore) for (u,1) in linkscores.items()]) 
return normalizedscores 


上 述 代码 循环 遍历 wordids 中 的 所 有 单词 ， 并 查找 包含 这 些 单词 的 链接 。 如 果 链 接 的 目标 
地 址 与 搜索 结果 中 的 某 一 条 数据 相 匹配 , 则 链接 源 对 应 的 PageRank 值 将 被 加 入 到 目标 网 页 
的 最 终 评价 值 中 。 一 个 网 页 ， 如 果 拥 有 大 量 来 自 其 他 重要 网 页 的 链接 指向 ， 且 这 些 网 页 又 
满足 查询 条 件 ， 则 该 网 页 将 会 得 到 一 个 很 高 的 评价 值 。 在 查询 结果 中 ， 有 许多 网 页 不 具备 
包含 有 效 文 本 的 链接 ， 其 所 得 分 值 将 为 0。 


为 了 能 够 利用 链接 文本 进行 排名 ， 只 须 将 下 列 代码 片段 加 入 weights 列表 中 的 任何 位 置 ， 


(1.0,self.linktextscore (rows,wordids))} 


对 于 前 述 这 些 度量 ， 并 不 存在 一 组 标准 的 权重 分 配 ， 能 够 适应 所 有 的 情况 。 即 使 是 主流 的 
搜索 网 站 ， 也 在 时 常 改变 他 们 对 搜索 结果 的 排名 方法 。 我 们 所 用 到 的 度量 方法 ， 以 及 赋予 
它们 的 权重 系数 ， 很 大 程度 上 取决 于 我 们 正在 试图 构建 的 应 用 。 
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在 线 应 用 的 一 个 最 大 优势 就 在 于 ， 它 们 会 持续 收 到 以 用 户 行为 为 表现 形式 的 反馈 信息 。 对 
于 搜索 引擎 而 言 ， 每 一 位 用 户 可 以 通过 只 点 击 某 条 搜索 结果 ， 而 不 选择 点 击 其 他 内 容 ， 辣 
引擎 及 时 提供 有 关于 他 对 搜索 结果 喜好 程度 的 信息 。 本 节 我 们 将 介绍 一 种 方法 ， 它 将 记录 
用 户 点 击 查询 结果 的 情况 ， 并 利用 这 一 信息 来 改进 搜索 结果 的 排名 。 


为 此 ， 我 们 须要 构造 一 个 人 工 神经 网 络 ， 向 其 提供 : 查询 条 件 中 的 单词 ， 返 回 给 用 户 的 搜 
索 结果 ， 以 及 用 户 的 点 击 决策 ， 然 后 再 对 其 加 以 训练 。 一 旦 网 络 经 过 了 许多 不 同 查 询 的 训 
练 之 后 ， 我 们 就 可 以 利用 它 来 改进 搜索 结果 的 排序 ， 以 更 好 地 反映 用 户 在 过 去 一 段 时 间 里 
的 实际 点 击 情况 。 


一 个 点 击 跟踪 网 络 的 设计 


有 许多 种 不 同类 型 的 神经 网 络 ， 它 们 都 以 一 组 节点 (神经 元 ) 构成 ， 并 且 彼 此 相连 。 我 们 
即将 学 习 到 的 这 种 网 络 ， 被 称 为 多 层 感 知 机 (multilayer perceptron, MLP) 网 络 。 此 类 网 络 
由 多 层 神 经 元 构造 而 成 ， 其 中 第 一 层 神 经 元 接受 输入 一 一 在 本 例 中 ， 即 用 户 输入 的 单词 。 
最 后 一 层 神 经 元 则 给 予 输出 ， 在 本 例 中 ， 即 一 个 涉及 被 返回 的 不 同 URL 的 权重 列表 。 


神经 网 络 可 以 有 多 个 中 间 层 ， 不 过 在 本 例 中 ， 我 们 只 使 用 了 一 层 。 因 为 外 界 无 法 直接 与 其 
交互 ， 所 以 该 中 间 层 被 称 为 隐藏 层 ， 其 职责 是 对 输入 进行 组 合 。 在 本 例 中 ， 对 输入 的 组 合 
结果 就 是 一 组 单词 ,因此 我 们 也 可 以 将 这 一 层 看 作 是 “查询 层 "。 图 4-4 展示 了 网 络 的 结构 。 
所 有 位 于 输入 层 中 的 节点 都 与 所 有 位 于 隐藏 层 中 的 节点 相连 接 ， 而 所 有 位 于 隐藏 层 中 的 节 
点 也 都 与 所 有 位 于 输出 层 中 的 节点 相连 接 。 





图 4-4: 点 击 跟踪 神经 网 络 的 设计 
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为 了 让 神经 网 络 得 到 最 佳 查询 结果 ， 我 们 将 与 查询 条 件 中 出 现 的 单词 相对 应 的 输入 节点 设 
值 为 1。 这些 节点 的 输出 端 开 启 后 ， 会 试图 激活 隐藏 层 。 相 应 地 ， 位 于 隐藏 层 中 的 节点 如 果 
得 到 一 个 足够 强力 的 输入 ， 就 会 触发 其 输出 端 ， 并 试图 激活 位 于 输出 层 中 的 节点 。 


随后 ， 位 于 输出 层 中 的 节点 将 处 于 不 同 程度 的 活跃 状态 ， 我 们 可 以 利用 其 活跃 程度 来 判断 
-个 URL 与 原 查 询 中 出 现 的 单词 在 相关 性 上 的 紧密 程度 。 图 4-5 给 出 了 一 个 针对 “world 
bank” 的 查询 。 图 中 的 实 线 代表 强 连接 ， 粗 体 文字 则 表示 节点 已 经 变 得 非常 活跃 。 





图 4-5; 神经 网 络 对 “world bank” 所 作出 的 反应 


当然 ， 最 终 的 结果 还 要 取决 于 被 逐渐 纠正 的 连接 强度 。 为 此 ， 只 要 有 人 执行 搜索 ， 并 从 结 
果 中 选择 链接 ,我 们 就 对 该 网 络 进 行 训 练 。 在 如 图 4-5 所 示 的 网 络 中 ,许多 人 已 在 搜索 “world 
bank” Zia, 点击 过 有 关 World Bank (世界 银行 ) 的 相关 结果 , 而 这 一 点 加 强 了 单词 与 URL 
的 关联 。 本 节 将 向 大 家 展示 ， 如 何 利 用 一 种 被 称 为 反问 传播 (backpropagation) 的 算法 
对 网 络 进行 训练 。 


也 许 你 会 好 奇 ， 为 什么 我 们 需要 一 种 像 神经 网 络 这 样 的 复杂 技术 ， 而 不 是 简单 地 记录 下 查 
询 条 件 以 及 每 个 搜索 结果 被 点 击 的 次 数 呢 。 接 下 来 即将 要 构造 的 神经 网 络 ， 其 威力 在 于 ， 
它 能 根据 与 其 他 查询 的 相似 度 情况 ， 对 以 前 从 未 见 过 的 查询 结果 做 出 合理 的 猜测 。 不 仅 如 
此 ， 神 经 网 络 还 广泛 适用 于 许多 其 他 的 应 用 ， 对 于 我 们 的 集体 智慧 “工具 箱 ”(toolbox) 而 
言 ， 神 经 网 络 也 是 一 个 极 大 的 补充 。 


设置 数据 库 


由 于 神经 网 络 须要 在 用 户 查 询 时 经 过 不 断 的 训练 ， 因 此 我 们 须要 将 反映 网 络 现状 的 信息 存 
入 数据 库 中 。 数 据 库 中 已 经 有 一 张 涉及 单词 与 URL 的 数据 表 ， 另 外 我 们 还 需要 一 张 代表 隐 
me IRE AE (我 们 称 之 为 hiddennode)， 以 及 两 张 反映 网 络 节点 连接 状况 的 表 (一 张 从 
单词 层 到 隐藏 层 ， 另 一 张 则 连接 隐藏 层 与 输出 层 )。 
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请 新 建 一 个 名 为 nn.py 的 文件 ， 并 在 其 中 新 建 一 个 类 ， 取 名 searchnet: 


from math import tanh 
from pysqlite2 import dbapi2 as sqlite 


class searchnet: 
def init _(self,dbname): 
self.con=sqlite.connect (dbname) 


def del _(self): 


-一 一 


self.con.close() 


def maketables (self): 
self.con.execute('create table hiddennode(create key) ') 
self.con.execute('create table wordhidden(fromid,toid,strength) ') 
self.con.execute('create table hiddenurl (fromid,toid, strength) ') 
self.con.commit () 


这 些 表 目 前 还 没有 索引 ， 如 果 效 率 问题 非常 突出 ， 稍 后 我 们 可 以 为 其 添加 索引 。 


为 了 访问 数据 库 ， 我 们 须要 创建 两 个 方法 。 第 一 个 方法 名 为 getstrength， 用 以 判断 当前 
连接 的 强度 。 由 于 新 连接 只 在 必要 时 才 会 被 创建 ， 因 此 该 方法 在 连接 不 存在 时 将 会 返回 一 
个 默认 值 。 对 于 从 单词 层 到 隐藏 层 的 连接 ， 其 默认 值 将 为 -0.2。 所 以 在 默认 情况 下 ， 附 加 的 
单词 将 会 对 处 于 隐藏 层 的 节点 在 活跃 程度 上 产生 轻微 的 负面 影响 。 对 于 从 隐藏 层 到 URL 的 
连接 而 言 ， 方 法 返回 的 默认 值 为 0。 


def getstrength(self, fromid,toid, layer): 
if layer==0: table='wordhidden' 
else: table='hiddenurl' 
res=self.con.execute('select strength from %s where fromid=%d and toid=%d' $% 
(table, fromid, toid) ) .fetchone() 
if res==None: 
if layer==0: return -0.2 
if layer==1: return 0 
return res[0] 


此 外 ， 我 们 还 需要 一 个 setstrength 方法 ， 用 以 判断 连接 是 否 已 存在 ， 并 利用 新 的 强度 值 
更 新 连接 或 创建 连接 。 该 函数 将 会 为 训练 神经 网 络 的 代码 所 用 ， 


def setstrength (self, fromid, toid, layer,strength): 
if layer==0: table='wordhidden' 
else: table='hiddenurl' 
res=self.con.execute('select rowid from ts where fromid=%d and toid=%d' % 
(table, fromid,toid)).fetchone() 
if res==None: 
self.con.execute('insert into ts (fromid,toid,strength) values (%d, %d, %f) ' 
(table, fromid, toid, strength) ) 
else: 
rowid=res [0] 
self.con.execute('update %s set strength=%f where rowid=%d' $ 
(table, strength, rowid) ) 
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大 多 数 时 候 ， 当 我 们 在 构建 神经 、 网 络 时 ， 网 络 中 的 所 有 节点 都 是 预先 建 好 的 。 我 们 可 以 
预先 建立 一 个 隐藏 屋 中 有 上 千 节 点 ， 全 部 连接 均 已 就 绪 的 巨大 网 络 ， 不 过 在 本 例 中 ， 只 在 
需要 时 建立 新 的 隐藏 节点 会 更 商 效 ， 也 更 简单 。 


每 传人 一 组 以 前 从 未 见 过 的 单词 组 合 ， 该 函数 就 会 在 隐藏 层 中 建立 一 个 新 的 节点 。 随 后 ， 
函数 会 为 单词 与 隐藏 节点 之 间 ， 以 及 查询 节点 与 由 查询 所 返回 的 URL 结果 之 间 ， 建 立 起 具 
有 默认 权重 的 连接 。 


点 


def generatehiddennode (self,wordids,urls): 
if len(wordids)>3: return None 
# 检查 我 们 是 否 已 经 为 这 组 单词 建 好 了 一 个 节点 
createkey=' ! ,join(sorted([str(wi) for wi in wordids])) 
res=self.con.execute ( 
"select rowid from hiddennode where create_key='%ts'" % createkey) . fetchone () 


# 如 果 没 有 ， 则 建立 之 
if res==None: 
cur=self.con.execute ( 
"insert into hiddennode (create key) values ('%s')" % createkey) 
hiddenid=cur.lastrowid 
# RERUVARE 
for wordid in wordids: 
self.setstrength (wordid, hiddenid, 0,1.0/len(wordids) )} 
for urlid in urls: 
self.setstrength (hiddenid,urlid,1,0.1) 
self.con.commit () 


请 在 Python 解释 器 中 试 着 新 建 一 个 数据 库 ， 并 生成 一 个 带 有 样 例 单词 和 URL ID 的 隐藏 节 


>> import nn 

>> mynet=nn.searchnet ('nn.db') 

>> mynet.maketables () 

>> wWorld,wRiver,wBank =101,102,103 

>> uWorldBank,uRiver,uEarth =201,202,203 

>> mynet .generatehiddennode ( [wWorld,wBank] , [uWorldBank,uRiver , uEarth] ) 
>> for c in mynet.con.execute('select * from wordhidden'): print c 
(101, 1, 0.5) 

(103, Te 0.5) 

>> for c in mynet.con.execute('select * from hiddenurl'): print c 
(1, 201, 0.1) 

(i, 202, 0.1) 


上 述 执 行 过 程 在 隐藏 层 中 建立 了 一 个 新 的 节点 ， 还 建立 了 一 个 指向 该 新 建 节点 的 带 默 认 值 
的 连接 。 开 始 阶 段 ， 无论“world” 与 “bank” 何 时 被 一 起 输入 ， 隔 数 都 会 作出 相应 的 响应 ， 
不 过 随 着 时 间 的 推移 ， 这 些 连接 将 会 逐渐 变 弱 。 
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前 馈 法 


FF ona , 
Feeding Forward 


接 下 来 , 我 们 将 编写 相关 的 函数 , 接受 一 组 单词 作为 输入 , 激活 网 络 中 的 连接 , 并 针对 URL 
给 出 一 组 输出 结果 。 


首先 ， 我 们 来 选择 一 个 函数 ， 用 以 指示 每 个 节点 对 输入 的 响应 程度 。 此 处 介绍 的 神经 网 络 
将 使 用 反 双 曲 正切 变换 函数 (hyperbolic tangent，tanh) ， 如 图 4-6 所 示 。 





4-6; tanh BA 


其 中 ,X 轴 代 表 了 针对 节点 的 总 输入 。 当 输入 接近 ORT, STEFF. SMA A 2 
时 ， 则 输出 几乎 停留 在 1 的 位 置 不 再 变化 。 这 是 一 类 S 型 函数 (sigmoid function), ， 所 有 该 
类 型 的 函数 都 会 呈现 这 样 的 S 形状 。 神 经 网 络 几乎 总 是 利用 S 型 函数 来 计算 神经 元 的 输出 。 


在 开始 执行 前 馈 算法 之 前 ，searchnet 类 的 代码 必须 先 从 数据 库 中 查询 出 节点 与 连接 的 信 
息 ， 然 后 在 内 存 中 建立 起 与 某 项 查询 相关 的 那 一 部 分 网 络 。 为 此 ， 首 先 第 一 步 是 编写 一 个 
函数 ， 从 隐藏 县 中 找 出 与 某 项 查询 相关 的 所 有 节点 一 一 在 本 例 中 ， 这 些 节 点 必须 关联 于 查 
询 条 件 中 的 某 个 单词 ， 或 者 关联 于 查询 结果 中 的 某 个 URL。 由 于 其 他 节点 不 会 被 用 来 判断 
结果 或 训练 网 络 ， 所 以 我 们 没 必 要 将 它们 包含 在 内 : 


def getallhiddenids(self,wordids,urlids): 

li={} 

for wordid in wordids: 
cur=self.con.execute ( 
‘select toid from wordhidden where fromid=%d' $ wordid)} 
for row in cur: ll[row[0]]=1 

for urlid in urlids: 
cur=self.con.execute ( 
‘select fromid from hiddenurl where toid=%d* % urlid) 
for row in cur: 1li[row[0]]=1 

return 11.keys() 
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此 外 ， 我 们 还 需要 一 个 方法 ， 利 用 数据 库 中 保存 的 信息 ， 建 立 起 包括 所 有 当前 权重 值 在 内 
的 相应 网 络 。 该 函数 为 searchnet 类 定义 了 多 个 实例 变量 ， 包 括 : 单词 列表 、 查 询 节 点 及 
URL， 每 个 节点 的 输出 级 别 ， 以 及 每 个 节点 间 连 接 的 权重 值 。 此 处 的 权重 值 是 利用 先前 定 
义 的 函数 ， 从 数据 库 中 取得 的 。 


def setupnetwork(self,wordids,urlids): 


# 值 列 表 

self .wordids=wordids 

self .hiddenids=self.getallhiddenids (wordids, urlids) 
self.urlids=urlids 


# 节点 输出 

self.ai = [1.0]*len(self.wordids) 
self.ah = [1.0]*len(self.hiddenids) 
self.ao = [1.0]*len(self.urlids) 

# tiiti 


self.wi = [[self.getstrength (wordid, hiddenid, 0) 
for hiddenid in self.hiddenids] 
for wordid in self.wordids] 

self.wo = [[self.getstrength (hiddenid,urlid,1) 
for urlid in self.urlids] 
for hiddenid in self.hiddenids] 


最 后 我 们 来 构造 前 馈 算法 。 算 法 接受 一 列 输入 ， 将 其 推 人 网 络 ， 然 后 返回 所 有 输出 层 节点 
的 输出 结果 。 在 本 例 中 ， 由 于 我 们 已 经 岁 造 了 一 个 只 与 查询 条 件 中 的 单词 相关 的 网 络 ， 因 
此 所 有 来 自 输入 层 节 点 的 输出 结果 都 将 总 是 为 【: 


def feedforward(self): 

# 查询 单词 是 仅 有 的 输入 
for i in range(len(self.wordids) ): 

self.ai[i] = 1.0 


E 隐藏 层 节点 的 活跃 程度 
for j in range(len(self.hiddenids) ): 
sum = 0.0 
for i in range(len(self.wordids)): 
sum = sum + self.ail[i]) * self.wif[i) [j] 
self.ah[{j] = tanh (sum) 


# 输出 层 节点 的 活跃 程度 
for k in range(len(self.urlids)): 
sum = 0.0 
for j in range(len(self.hiddenids)): 
sum = sum + self.ah{j) * self.wo[4] [k] 
self.ao(k] = tanh (sum) 


return self.ao[:] 
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前 名 算法 的 执行 过 程 是 循环 遍历 所 有 位 于 隐藏 层 中 的 节点 ， 并 将 所 有 来 自 输 入 层 的 输出 结 
果 乘 以 连接 强度 之 后 累加 起 来 。 每 个 节点 的 输出 等 于 所 有 输入 之 和 经 过 tanh 函数 计算 之 后 
的 结果 ， 这 一 结果 将 被 传 给 输出 层 。 输 出 层 的 处 理 过 程 类 似 ， 也 是 将 上 一 层 的 输出 结果 乘 
以 强度 值 ， 然 后 应 用 tanh 函数 给 出 最 终 的 输出 结果 。 只 要 持续 不 断 地 将 上 一 层 的 输出 作为 
下 一 层 的 输入 ， 我 们 可 以 很 容易 地 对 网 络 加 以 扩展 ， 令 其 包含 更 多 的 层 。 


现在 ,我们 可 以 编写 一 个 简短 的 函数 ， 建 立 神 经 网 络 ， 并 调用 feedforward 函数 针对 一 组 
单词 与 URL 给 出 输出 : 
def getresult (self,wordids,urlids): 


self.setupnetwork (wordids,urlids) 
return seif.feedforward() 


我 们 可 以 利用 Python 的 执行 环境 ， 试 验 一 下 神经 网 络 : 


>> reload(nn) 

>> mynet=nn.searchnet('nn.db') 

>> mynet.getresult ([wWorld,wBank] , [uWorldBank,uRiver,uEarth] ) 
[0.76,0.76,0.76] 


返回 列表 中 的 数字 对 应 于 输入 URL 的 相关 性 。 不 必 惊 讶 ， 因 为 尚未 经 过 任何 训练 ， 所 以 此 
处 的 神经 网 络 对 于 每 个 URL 给 出 的 结果 都 是 一 样 的 。 


利用 反 向 传播 法 进行 训 红 


有 趣 之 处 就 在 于 此 。 神 经 网 络 会 接受 输入 并 给 出 输出 ， 但 是 由 于 我 们 还 没有 告诉 它 一 个 好 
的 结果 是 什么 样 请 ”因而 其 返回 的 结果 是 毫 无 价值 的 。 现 在 ， 我 们 将 通过 为 神经 网 络 提供 
某 些 人 实际 搜索 E “和子 、 相 应 的 返回 结果 ， 以 及 用 户 决定 点 击 的 情况 ， 对 网 络 展开 训练 。 


为 此 ， 我 们 需要 一 个 算法 ， 来 修改 介 于 两 节点 间 连 按 的 权重 值 ， 以 便 更 好 地 反映 人 们 告知 
网 络 的 正确 答案 。 由 于 无 法 假设 每 个 用 户 都 会 点 测 一 “适合 所 有 人 的 答案 ， 因 此 权重 值 须 
要 逐步 加 以 调整 。 我 们 将 要 使 用 的 算法 被 称 为 反 向 传播 法 ， 因 为 该 算法 在 调整 权重 值 时 是 
沿 着 网 络 反 向 行进 的 。 


因为 在 对 网 络 进行 训练 时 ， 我 们 始终 都 知道 每 个 输出 层 节点 的 期 望 输出 ， 所 以 在 过 种 情况 
下 ， 如 果 用 户 点 击 了 预期 的 结果 ， 则 它 应 该 朝 着 1 的 方向 推进 ， 否 则 就 朝 0 的 方向 推进 。 
修改 某 一 节点 输出 结果 的 唯一 方法 ， 是 修改 针对 该 节点 的 总 输入 。 


为 了 确定 我 们 应 该 如 何 改变 总 的 输入 , 训练 算法 须要 知道 tanh 函数 在 其 当前 输出 级 别 上 的 
斜率 〈slope)。 在 函数 的 中 段 ， 当 输出 为 0.0 时 ， 斜 率 就 会 非常 的 “ 陡 ”， 因 此 只 改变 一 点 点 
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输入 便 会 获得 很 大 的 变化 。 如 果 输 出 结果 越 接近 于 -1 或 1, 则 改变 输入 对 输出 构成 的 影响 就 
会 变 得 越 来 越 小 。 函 数 针 对 任何 输出 值 的 斜率 均 由 下 列 函 数 指定 ， 我 们 可 以 将 其 加 入 nn.py 
的 开始 处 : 


def dtanh(y): 
return 1.0-y*y 


在 执行 反 向 传播 算法 之 前 ， 有 必要 运行 一 下 feedforward 函数 。 这 样 一 来 ， 每 个 节点 的 当 
前 输出 结果 都 将 被 存 人 实例 变量 中 。 而 后 ， 反 向 传播 算法 将 执行 如 下 步骤 。 


对 于 输出 层 中 的 每 个 节点 : 
1. 计算 节点 当前 输出 结果 与 期 望 结 果 之 间 的 差距 ， 
2. 利用 dtanh 函数 确定 节点 的 总 输入 须要 如 何 改 变 ， 


3. 改变 每 个 外 部 回 指 链接 的 强度 值 ， 其 值 与 链接 的 当前 强度 及 学 习 速 率 (learning rate) 成 
- 定 比例 。 


对 于 每 个 隐藏 层 中 的 节点 : 


1. 将 每 个 输出 链接 (output link) 的 强度 值 乘 以 其 目标 节点 所 需 的 改变 量 ， 再 暴 加 求 和 ， 从 
而 改变 节点 的 输出 结果 ， 


2. 使 用 atanh 函数 确定 节点 的 总 输入 所 需 的 改变 量 ， 


3. 改变 每 个 输入 链接 (input link) 的 强度 值 ， 其 值 与 链接 的 当前 强度 及 学 习 速 率 成 一 定 比 
例 。 


由 于 全 部 计算 都 依赖 于 对 当前 权重 的 了 解 ， 而 非 对 更 新 后 权重 的 了 解 ， 该 算法 的 实现 逻辑 
实际 上 是 预先 对 所 有 误差 进行 计算 ， 然 后 再 对 权重 加 以 调整 。 下 面 是 算法 的 实现 代码 ， 可 
以 将 其 加 入 searchnet 类 中 ， 


def backPropagate(self, targets, N=0.5): 
# 计算 输出 层 的 误差 
output_deltas = [0.0] * len(self.urlids) 
for k in range(len(self.urlids)): 
error = targets[k]-self.ao[k] 
output _deltas[k] = dtanh(self.ao[k]) * error 


# 计算 隐藏 层 的 误差 
hidden deltas = [0.0] * len(self.hiddenids) 
for j in range(len(self.hiddenids)): 
error = 0.0 
for k in range(len(self.urlids)): 
error = error + output_deltas(k)*self.wo[}j) (k] 
hidden _deltas({j] = dtanh(self.ah[(j]) * error 
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# 更 新 输出 权重 
for j in range(len(self.hiddenids)) : 
for k in range(len(self.urlids)): 
change = output_deltas[k]*self.ah[j] 
self.wo[{j}[k] = self.wo[j][k] + N*change 


# 更 新 输入 权重 
for i in range(len(self.wordids) ): 
for j in range(len(self-.hiddenids) ): 
change = hidden deltas[j]*self.ai[i] 
self.wi[i}){4j] = self.wifi][j] + N*change 


现在 ， 我 们 所 要 做 的 全 部 工作 就 是 编写 一 个 简单 的 方法 ， 建 立 神经 网 络 ， 运 行 前 馈 算法 和 
反 向 传播 算法 。 访 方法 接受 wordids 列表 、urlids 列表 ， 以 及 一 个 URL 作为 参数 ， 


def trainquery(self,wordids,urlids,selectedurl): 


# 如 有 ,必要 ， 生 成 一 个 隐藏 节点 


self.generatehiddennode (wordids, urlids) 


self.setupnetwork (wordids,urlids) 
self. feedforward () 
targets=[(0.0]*len(urlids) 
-targets[(urlids.index(selectedurl) ]=1.0 
self.backPropagate (targets) 
self.updatedatabase () 


为 了 将 结果 保存 起 来 ， 我 们 还 需要 一 个 方法 来 更 新 数据 库 中 的 权重 值 ， 权 重信 息 位 于 实例 
变量 wi 和 wo 中: 


def updatedatabase(self): 
# 将 值 存 入 数据 库 中 
for i in range(len(self.wordids)): 
for j in range(len(self.hiddenids) ): 
self .setstrength (self .wordids [i], self. hiddenids[j],0,self.wi[i) [j]) 
for j in range(len(self.hiddenids) ): 
for k in range(len(self.urlids)): 
self.setstrength (self.hiddenids[j],self.urlids[k],1,self.wo[j] [k]) 
self.con.commit () 


现在 ， 我 们 可 以 做 一 个 简单 的 实验 ， 选 择 一 个 以 前 曾经 试 过 的 查询 ， 看 看 网 络 是 如 何 响应 
训练 过 程 的 : 

>> reload (nn) 

>> mynet=nn.searchnet('nn.db') 

>> mynet.trainquery ([wWorld,wBank] , [uWorldBank, uRiver , uEarth] , wWorldBank) 


>> mynet.getresult ([wWorld,wBank] , [uWorldBank, uRiver,uEarth] ) 
[0.335,0.055,0.055]) 


待 神经 网 络 了 解 到 某 位 特定 用 户 所 做 的 选择 以 后 , 有关 World Bank 的 URL 输出 结果 就 会 有 
所 增加 ， 而 其 他 URL 的 输出 结果 则 会 有 所 了 减少。 用户 做 这 样 的 选择 越 多 ， 两 类 输出 结果 间 
的 差距 就 会 越 大 。 
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训练 实验 


至 此 我 们 已 经 看 到 了 ， 利 用 某 个 样 例 结果 对 网 络 加 以 训练 ， 可 以 增加 针对 该 结果 的 输出 。 
尽管 这 是 有 价值 的 ， 但 是 它 并 没有 真正 展示 出 神经 网 络 的 能 力 一 一 即 ， 对 以 前 未 曾 见 过 的 
输入 情况 进行 推理 。 请 在 你 的 Python 会 话 中 尝试 输入 如 下 代码 ，; 
>> allurls=[uWorldBank,uRiver,uEarth] 
>> for i in range (30): 
mynet.trainquery ([wWorld,wBank] ,allurls,uWorldBank) 


mynet.trainquery ( [wRiver,wBank] ,allurls,uRiver) 
mynet.trainquery ([wWorld] ,allurls,uEarth) 


>> mynet.getresult ((wWorld,wBank] ,allurls) 
(0.861, 0.011, 0.016] 

>> mynet.getresult ([wRiver,wBank] ,allurls) 
[-0.030, 0.883, 0.006) 

>> mynet.getresult ([wBank] ,allurls) 
(0.865, 0.001, -0.85] 


尽管 网 络 本 身 从 未 见 过 有 关 “bank” 的 查询 ,但 是 它 给 出 了 一 个 合理 的 猜测 。 不 仅 如 此 ， 
即使 在 训练 用 的 查询 样 例 中 ，“bank” 与 “river” 间 的 联系 和 它 与 World Bank 间 的 联系 相差 
EJL, 网络 对 于 World Bank URL 的 评价 依然 还 是 会 比 River URL 更 高 。 神 经 网 络 不 仅 掌 所 
T URL 与 查询 的 联系 ， 还 了 解 到 一 次 特定 查询 中 ， 哪 些 单词 是 重要 的 一 一 这 些 信息 是 单纯 
从 查询 与 URL 的 关联 关系 中 无 法 获取 到 的 。 


与 搜索 引擎 结合 
oct iO We DUAFEN I NONG 
searcher 类 的 query 方法 在 生成 与 打印 结果 输出 期 间 得 到 了 一 个 有 关 URL ID 与 单词 ID 


的 列表 。 我们 可 以 将 下 列 代码 加 入 searchengine .py 中 query 方法 的 结尾 处 , 邻 其 将 这 一 
结果 返回 ; 


return wordids, [rz[1] for r in rankedscores[0:10]] 


上 述 结果 可 以 被 直接 传人 searchnet 的 trainquery 方法 中 。 


搜集 用 户 有 关 结 果 偏 好 信息 的 具体 方法 取决 于 我 们 对 应 用 程序 的 设计 。 我 们 可 以 在 网 页 中 
包含 一 个 中 间 页 面 ,以 截获 用 户 的 点 击 行为 ,并 在 重 定向 到 实际 搜索 页 面 之 前 调用 trainquery 
方法 ， 或 者 ， 甚 至 还 可 以 让 用 户 对 搜索 结果 的 相关 性 进行 投票 ， 以 此 来 改进 算法 。 


构建 人 工 神经 网 络 的 最 后 一 步 , 是 在 searcher 类 中 新 建 一 个 方法 , 对 搜索 结果 进行 加 权 处 
理 。 该 函数 看 起 来 与 其 他 权重 函数 很 类 似 。 我 们 要 做 的 第 一 件 事情 是 在 searchengine.py 中 
引入 神经 网 络 的 对 应 类 : 


import nn 
mynet=nn.searchnet ('nn.db') 
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然后 将 下 列 方法 加 和 人 searcher 类 中 : 


def nnscore(self, rows,wordids): 
# 获得 一 个 由 唯一 的 URL ID 构成 的 有 序列 表 
urlids=[urlid for urlid in set([row[0] for row in rows])] 
nnres=mynet.getresult {wordids, urlids) 
scores=dict([(urlids[i}],nnres[i]} for i in range(len(urlids))]) 
return self.normalizescores (scores) 


同样 ,我 们 依然 可 以 将 其 纳 和 人 到 包含 有 多 种 不 同 权 重 的 weights 列表 中 进行 试验 。 事实 上 ， 
更 值得 推荐 的 做 法 是 ， 等 到 网 络 经 过 大 量 不 同样 例 的 训练 之 后 ， 再 将 其 作为 评价 值 的 一 部 
分 纳入 进来 。 


本 章 介绍 了 开发 一 个 搜索 引擎 所 需 的 许多 知识 ， 不 过 相 比 于 实际 情况 这 依然 是 非常 有 限 的 。 
本 章 的 练习 部 分 将 涉及 某 些 进 阶 议题 。 在 这 里 ， 我 们 并 未 着 力 于 性 能 问题 一 一 这 可 能 要 求 
我 们 对 数 以 百 万 计 的 网 页 建立 索引 一 一 不 过 前 文 构建 的 搜索 引擎, 对 于 100 000 规模 的 网 页 
而 言 ， 其 性 能 应 该 是 绰绰有余 的 ， 这 对 于 新 闻 站 点 或 公司 内 部 网 而 言 ， 已 经 足够 了 。 
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1, 分 词 separatewords 方法 目前 将 任何 非 字 母 和 非 数 字 字 符 都 当 作 了 分 隔 符 ， 这 意味 着 
它 无 法 为 诸如 “C++”、“$20”、“Ph.D.” 或 “617-555-1212” 这 样 的 词 条 建立 正确 的 索引 。 
更 好 的 分 词 方法 是 什么 呢 ? 使 用 空白 符 作为 分 隔 符 是 否 可 以 ?请 编写 一 个 更 好 的 分 词 函 
数 。 


2. 布尔 操作 符 ” 许 多 搜索 引擎 都 支持 布尔 查询 ， 它 允许 用 户 构造 诸如 “python OR perl” ix 
样 的 搜索 条 件 。 一 个 OR 查询 可 以 通过 分 别 执行 两 次 查询 后 再 对 结果 进行 组 合 的 方式 来 
实现 ， 但 是 对 于 “python AND (program OR code)” 又 该 如 何 处 理 呢 ? 请 修改 查询 方法 ， 
以 支持 某 些 基本 的 布尔 操作 。 


3. 精确 匹配 ”搜索 引擎 通常 都 支持 “精确 匹配 ”查询 ; 网 页 中 与 查询 匹配 的 单词 ， 其 出 现 
顺序 必须 与 查询 条 件 中 的 单词 顺序 相同 ， 而 且 中 间 不 允许 夹杂 任何 其 他 的 单词 。 请 编写 
一 个 新 的 getrows 函数 ， 只 返回 精确 匹配 的 结果 。( 提 示 : 你 可 以 使 用 SQL 中 的 减法 运 
算 ， 得 到 两 个 单词 间 的 位 置 之 差 。) 


4. 长 文 /短文 搜索 ”有 时， 我 们 会 利用 网 页 的 长 度 来 判断 其 是 否 与 某 一 类 特定 的 搜索 应 用 
或 用 户 相关 。 用 户 有 可 能 会 对 查找 有 关 疑 难 问 题 的 长 篇 文章 感 兴趣 ， 也 有 可 能 会 对 命令 
行 工 具 的 快速 参考 感 兴趣 。 请 编写 一 个 权重 函数 ， 该 函数 将 根据 传 入 的 参数 ， 倾 向 于 给 
出 较 长 或 较 短 的 文档 。 


5. 单词 频 度 偏好 “单词 计数 ”的 度量 方法 更 偏向 于 较 长 的 文档 ， 因 为 篇 幅 较 长 的 文档 拥 
有 更 多 的 单词 ， 而 且 因 此 也 更 有 可 能 包含 要 搜索 的 单词 。 请 编写 一 个 新 的 度量 方法 ， 以 
文档 中 单词 数量 的 百分比 作为 频 度 进行 计算 。 
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6. 外 部 回 指 链接 搜索 ”目前 的 代码 可 以 根据 外 部 回 指 链接 的 文本 对 返回 结果 进行 排序 ,但 
是 为 此 我 们 必须 先 利 用 基于 内 容 的 算法 将 这 些 网 页 找到 。 而 有 时 ， 相 关 度 很 大 的 网 页 并 
不 包含 任何 查询 文本 ， 相 反 ， 它 们 带 有 许多 指向 该 网 页 的 链接 ， 这 些 链接 对 应 的 文本 则 
满足 搜索 条 件 一 一 指向 图 片 的 链接 通常 就 属于 此 种 情况 。 请 修改 搜索 代码 ， 令 搜索 结果 
中 也 包含 那些 外 部 回 指 链接 中 含有 待 搜索 单词 的 情况 。 


7. 不 同 的 训练 选项 “对 神经 网 络 进行 训练 时 ， 我 们 使 用 了 一 组 0 值 代表 所 有 用 户 没有 点 击 
的 URL, 而 用 1 来 代表 用 户 点 击 过 的 URL, 请 修改 训练 函数 ， 令 其 能 够 允许 用 户 对 结果 
”给 予 从 1 到 5 的 评价 。 


8. 附加 层 ”目前 的 神经 网 络 只 有 一 个 隐藏 层 。 请 修改 searchnet 类 ， 令 其 支持 任意 数量 的 
隐藏 层 。 关 于 层 数 ， 我 们 可 以 在 初始 化 时 加 以 指定 。 
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第 5 章 





本 章 我 们 将 向 大 家 介绍 ， 如 何 使 用 一 系列 被 称 为 随机 优化 (stochastic optimization) 的 技术 
来 解决 协作 类 问题 。 优 化 技术 特别 擅长 于 处 理 : 受 多 种 变量 的 影响 ， 存 在 许多 可 能 解 的 问 
题 ， 以 及 结果 因 这 些 变量 的 组 合 而 产生 很 大 变化 的 问题 。 这 些 优化 技术 有 着 大 量 的 应 用 ， 
在 物理 学 中 ， 我 们 用 它们 来 研究 分 子 的 运动 ， 在 生物 学 中 ， 我 们 用 它们 来 预测 蛋白 质 的 结 
构 ， 在 计算 机 科学 中 ， 我 们 用 它们 来 测定 算法 的 最 坏 可 能 运行 时 间 。NASA (美国 国家 航空 
和 字 宙 航 行 局 ) 甚至 使 用 优化 技术 来 设计 具有 正确 操作 特性 的 天 线 ， 而 这 些 天 线 看 起 来 似 
乎 不 像 是 人 类 设计 者 创造 出 来 的 。 


dire ee 
优化 算法 是 通过 尝试 许多 下 ee 
的 最 优 解 的 。 优 化 算法 的 Pye, FF 能 的 题解 以 至 于 我 们 无 法 对 它们 进 


行 一 一 尝试 的 情况 。 最 简 ki sR RR A SURI FA 














解 ， 并 从 中 找 出 景 佳 解 来 。 责 更 有 效率 的 方法 (将 在 丰 Ro. 则 是 以 一 种 对 题解 可 能 
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人 都 知道 ， 计划 的 所 
BEB SOO 
本 、 候 机 的 时 间 、 
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组 团 旅游 


为 来 自 不 同 地 方 去 往 同一 地 点 的 人 们 (本 例 中 是 Glass 一 家 ) 安排 一 次 旅游 是 一 件 极 富 挑 战 
性 的 事情 ， 它 引出 了 一 个 非常 有 趣 的 优化 问题 。 首 先 ， 我 们 创建 一 个 文件 ， 命 名 为 
optimization.py， 然 后 加 入 下 面 的 代码 : 

import time 


import random 
import math 


people = [('Seymour', 'BOS'), 
({'Franny’, 'DAL'), 
(*Zooey', 'CAK'), 
('Walt','MIA'), 
('Buddy', ‘ORD'), 
('Les', ‘OMA')] 


# New York #& LaGuardia 机 场 
destination='LGA' 


家 庭 成 员 们 来 自 全 国 各 地 ， 并 且 他 们 和 希望 在 纽约 会 面 。 他 们 将 在 同一 天 到 达 ， 并 在 同一 天 
离开 ， 而 且 他 们 想 搭乘 相同 的 交通 工具 往返 飞机 场 。 每 天 有 许多 航班 从 任何 一 位 家 庭 成 员 
的 所 在 地 飞 往 纽约 ， 飞 机 的 起 飞 时 间 都 是 不 同 的 。 这 些 航 班 在 价格 和 续航 时 间 上 也 都 不 尽 
相同 。 


我 们 可 以 从 这 个 网 址 httpykiwitobes.com/optimize/schedule.txt 下 载 有 关 航 班 数据 的 样本 文 
件 。 


该 文件 包含 一 组 以 逗号 分 隔 的 、 具 有 如 下 数据 格式 的 航班 数据 : 起 点 、 终 点 、 起 飞 时 间 、 
到 达 时 间 、 价 格 。 

LGA, MIA, 20:27,23:42,169 

MIA, LGA, 19:53,22:21,173 

LGA, BOS, 6:39,8:09, 86 

BOS, LGA, 6:17,8:26,89 

LGA, BOS, 8:23,10:28,149 


我 们 将 这 些 数据 载 人 到 一 个 字典 中 ， 并 以 起 止 点 为 键 ， 以 可 能 的 航班 详情 明细 为 值 。 请 将 
如 下 这 段 加 载 数据 的 代码 添加 到 optimization. py 文件 中 : 
flights={} 
# 
for line in file('schedule.txt'): 
origin, dest, depart,arrive,price=line.strip().split('’,') 


flights.setdefault({origin, dest), []) 


# 将 航班 详情 添加 到 航班 列表 中 
flights[(origin,dest)] .append( (depart, arrive, int (price) )) 
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我 们 还 在 此 处 定义 了 一 个 非常 有 用 的 工具 国 数 getminutes, 该 函数 用 于 计算 某 个 给 定时 间 
在 一 天 中 的 分 钟 数 。 这 使 飞行 时 间 和 候 机 时 间 的 计算 变 得 非常 容易 。 现 在 我 们 将 这 个 函数 
添加 到 optimization.py 文件 中 : 

def getminutes(t): 


x=time.strptime(t, '%H:%M') 
return x[3)*60+x[4] 


” 接 下 来 的 问题 是 ， 家 庭 中 的 每 个 成 员 应 该 乘坐 哪个 航班 呢 ? 当然 ， 使 总 的 票 价 降下 来 是 一 
个 目标 ， 但 是 最 优 解 将 要 考虑 和 尝试 最 小 化 的 还 有 许多 其 他 可 能 的 因素 ， 比 如 : 总 的 候 机 
时 间或 总 的 飞行 时 间 。 稍 候 我 们 将 详细 讨论 这 些 因素 。 


描述 题解 


当 处 理 类 似 这 样 的 问题 时 ， 我 们 有 必要 明确 潜在 的 题解 将 如 何 表 达 。 后 面 我 们 将 看 到 的 优 
化 函数 是 非常 通用 的 ， 它 能 应 用 于 许多 不 同类 型 的 问题 上 ， 因 此 ， 选 择 一 个 题解 的 简单 表 
示 方 法 而 不 局 限于 组 团 旅游 问题 是 非常 重要 的 。 有 一 种 非常 通用 的 表达 方式 ， 就 是 数字 序 
列 。 在 本 例 中 ， 一 个 数字 可 以 代表 某 人 选择 乘坐 的 航班 一 一 0 是 这 天 中 的 第 一 次 航班 ，1 是 
第 二 次 ， 依 次 类 推 。 因 为 每 个 人 都 须要 往返 两 个 航班 ， 所 以 列表 的 长 度 是 人 数 的 两 倍 。 


例如 : 


(1,4,3,2,7,3,6,3,2,4,5, 3] 


上 述 列表 代表 了 一 种 题解 : Seymour 搭乘 当天 的 第 2 次 航班 从 Boston KE New York, H4 
乘 当 天 的 第 5 次 航班 返回 到 Boston, Franny 搭乘 第 4 次 航班 从 Dallas 飞 往 New York ， 并 搭 
RE 3 次 航班 返回 。 


因为 要 从 一 列 数字 中 解释 清楚 题解 是 很 困 难 的 ， 所 以 我 们 需要 一 个 程序 ， 能 将 人 们 决定 搭 
乘 的 所 有 航班 打印 成 表格 。 请 阁下 列国 数 加 入 optimization.py 中 


def printschedule(r): 
for d in range(len(r)/2): 

name=people(d) [0] 

origin=people[d] [1] 

out=flights[ (origin, destination) ] [r[2*d] ] 

ret=flights[ (destination, origin) }] [r[2*d+1]}] 

print '%10st10s %5s-t5s $%3s t5s-%5s $%3s' % (name,origin, 
out[0],out[(1],out[2], 
ret[0],ret{1],ret[2]) 
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上 述 函 数 将 打印 出 一 行 ， 包括: 人 名 和 起 点 、 出 发 时 间 、 到 达 时 间 ， 以 及 往返 航班 的 票 价 。 
请 在 你 的 Python 会 话 中 尝试 执行 该 函数 。 
>>> import optimization 


>>> s=(1,4,3,2,7,3,6,3,2,4,5,3] 
>>> optimization.printschedule(s) 


Seymour BOS 12:34-15:02 $109 12:08-14:05 $142 
Franny DAL 12:19-15:25 $342 9:49-13:51 $229 
Zooey CAK 9:15-12:14 $247 15:50-18:45 $243 
Walt MIA 15:34-18:11 $326 14:08-16:09 $232 
Buddy ORD 14:22-16:32 $126 15:04-17:23 $189 
Les OMA 15:03-16:42 $135 6:19- 8:13 $239 


即使 不 考虑 价格 ， 上 述 安排 仍然 是 有 问题 的 。 尤 其 是 ， 因 为 家 庭 成 员 都 一 起 往返 于 机 场 ， 
因此 以 Les 的 返程 航班 为 例 ， 即 使 有 些 人 直到 下 午 4 点 才 会 飞 离 机场 ， 每 个 人 也 都 必须 在 
早晨 6 点 到 达 机 场 。 为 了 确定 最 佳 组 合 ， 程 序 需要 一 种 方法 来 为 不 同日 程 安排 的 各 种 属性 
进行 评估 ， 从 而 决定 哪 一 个 方案 是 最 好 的 。 


成 本 函数 


| i CIO 


成 本 函数 是 用 优化 算法 解决 问题 的 关键 ， 它 通常 是 最 难 确定 的 。 任 何 优化 算法 的 目标 ， 就 
是 要 寻找 一 组 能 够 使 成 本 函数 的 返回 结果 达到 最 小 化 的 输入 〈 在 本 例 中 ， 输 入 即 为 航班 信 
息 ) ， 因 此 成 本 函数 须要 返回 一 个 值 用 以 表示 方案 的 好 坏 。 对 于 好 坏 的 程度 并 没有 特定 的 衡 
量 尺度 ， 唯 一 的 要 求 就 是 函数 返回 的 值 越 大 ， 表 示 该 方案 越 差 。 


通常 ， 根 据 众多 变量 来 鉴别 方案 的 好 坏 是 比较 困难 的 。 我 们 来 考查 一 些 在 组 团 旅游 的 例子 
中 能 够 被 度量 的 变量 。 
价格 
所 有 航班 的 总 票 价 ， 或 者 有 可 能 是 考虑 财务 因素 之 后 的 加 权 平 均 。 
旅行 时 间 
每 个 人 在 飞机 上 花费 的 总 时 间 。 
等 待 时 间 
在 机 场 等 待 其 他 成 员 到 达 的 时 间 。 
出 发 时 间 
早晨 太 早 起 飞 的 航班 也 许 会 产生 额外 的 成 本 ， 因 为 这 要 求 旅行 者 减少 睡眠 的 时 间 。 
汽车 租用 时 间 


如 果 集 体 租用 一 辆 汽车 ， 那 么 他 们 必须 在 一 天 内 早 于 起 租 时 刻 之 前 将 车 辆 归还 ， 否 则 
将 多 付 一 天 的 租金 。 
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为 了 让 旅途 体验 能 够 更 加 愉快 一 些 ， 对 某 一 特定 的 时 间 安 排 从 更 多 方面 进行 考查 并 非 难 事 。 
每 当 我 们 为 一 个 复杂 问题 寻求 最 佳 方案 时 ， 都 须要 明确 什么 是 最 重要 的 因素 。 尽 管 这 可 能 
是 有 难度 的 ， 但 是 这 样 做 的 最 大 好 处 在 于 ， 一 旦 找到 这 些 最 重要 的 因素 ， 只 须 做 少量 的 修 
改 ， 我 们 就 可 以 运用 本 章 中 介绍 的 优化 算法 解决 几乎 任何 一 个 问题 。 


选择 好 对 成 本 产生 影响 的 变量 之 后 ， 我 们 就 须要 找到 办 法 将 它们 组 合 在 一 起 形成 一 个 值 。 
例如 在 本 例 中 ， 我 们 就 有 必要 明确 ， 在 飞机 上 的 时 间或 在 机 场 等 待 时 所 消耗 的 时 间 价值 是 
多 少 。 或 许 我 们 可 以 假定 ， 在 飞行 旅行 中 节省 的 每 一 分 钟 价值 1 美元 (这 相当 于 ， 再 加 90 
美元 选择 乘坐 直达 航班 ， 就 可 以 节省 一 个 半 小 时 的 时 间 )， 而 在 机 场 等 待 中 所 节省 的 每 一 分 
钟 则 价值 0.50 美元 。 如 果 每 个 人 回 到 机 场 的 时 刻 都 晚 于 最 初 租用 汽车 的 时 刻 ， 那 么 我 们 还 
可 以 将 多 付 一 天 的 租车 费用 也 算 在 内 。 


此 处 定义 的 schedulecost 函数 有 很 多 种 可 能 的 结果 。 该 函数 考查 了 总 的 旅行 成 本 以 及 不 
同 家 庭 成 员 在 机 场 总 的 等 待 时间 。 如 果 汽 车 是 在 租用 时 间 点 之 后 归还 的 ， 则 还 会 追加 50 美 
元 的 罚款 。 请 将 该 函数 添加 到 optimization py 文件 中 ， 并 且 你 还 可 以 随意 追加 额外 的 成 本 ， 
或 者 调整 金额 和 时 间 的 相关 重要 性 (译注 1): 


def schedulecost (sol): . 
totalprice=0 
latestarrival=0 
earliestdep=24*60 


for d in range(len(sol)/2): 
# 得 到 往 程 航班 和 返程 航班 
origin=people[d] [1] 
outbound=flights[ (origin, destination) ] [int (sol[2*dJ]) } 
returnf=flights[ (destination, origin) ] [int (sol[{2*d+1]) ] 


# 总 价格 等 于 所 有 往 程 航班 和 返程 航班 价格 之 和 
totalprice+=outbound{2] 
totalprice+=returnf [2] 


# 记录 最 晚 到 达 时 间 和 最 早 离 开 时 间 
if latestarrival<getminutes (outbound[1]): latestarrival=getminutes (cutbounad[1l]) 
if earliestdep>getminutes (returnf[0]): earliestdep=getminutes (returnf [0]) 


E 每 个 人 必须 在 机 场 等 待 直到 最 后 一 个 人 到 达 为 止 4 

# 他 们 也 : 沁 须 在 相同 时 间 到 达 ， 并 等 候 他 们 的 返程 航班 

totalwait=0 

for d in range(len(sol)/2): 
origin=people[d] [1] 
outbound=flights[ (origin, destination) ] {int (sol [2*d])] 
returnf=flights[ (destination, origin) ) [int (sol{2*d+1])] 
totalwait+=latestarrival-getminutes (outbound[1)) 
totalwait+=getminutes (returnf[0])-earliestdep 


译注 1: schedulecost 中 对 latestarrival>earliestdep 的 判断 似乎 有 误 ， 应 改 为 latestarrival<earliestdep。 
根据 上 下 文 ， 租 用 汽车 的 时 间 不 应 小 于 latestarrival ， 而 归还 汽车 的 时 间 则 不 应 大 于 
earliestdep。 在 latestarrival>earliestdep 的 情况 下 ， 一定 会 有 租车 时 间 > 还 车 时 间 ， 那 么 此 
时 不 应 罚款 才 对 。 只 有 当 latestarrival<earliestdep、 且 假定 租车 时 间 为 latestarriva]， 而 还 
车 时 间 为 earliestdep H, AMF TAF CMRF H, 
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# 这 个 题解 要 求 多 付 一 天 的 汽车 租用 章 用 吗 ? 如 果 是 ， 则 涡 用 为 50 美元 


if latestarrival>earliestdep: totalprice+=50 


return totalpricettotalwait 


上 述 函 数 中 的 逻辑 虽然 非常 简单 ， 但 是 它 却 阐明 了 关键 的 因素 。 我 们 还 可 以 采用 若干 方法 
对 其 功能 进行 增强 一 一 目前 ， 总 的 等 待 时 间 的 计算 是 假定 : 当家 庭 成 员 中 的 最 后 一 人 到 达 
时 所 有 人 才 会 一 起 离开 机 场 ， 并 且 所 有 人 会 一 起 赶 往 机 场 搭乘 最 早 一 班 飞机 离开 。 我 们 可 
以 对 此 进行 修改 ， 人 许 任何 要 面临 两 小 时 或 更 长 时 间 等 待 的 人 可 以 独自 租车 离开 ， 我 们 还 
可 以 对 其 中 的 价格 和 等 待 时 间 做 出 相应 的 调整 。 


我 们 可 以 在 Python 会 话 中 尝试 运行 一 下 该 函数 : 


>>> reload (optimi zation) 
>>> optimization.schedulecost{(s) 
5285 


成 本 函数 既 已 建 讶 ， 那 么 应 该 很 清楚 ， 我 们 的 目标 就 是 要 通过 选择 正确 的 数字 序列 来 最 小 
化 该 成 本 。 理 论 上 ， 我 们 可 以 尝试 每 种 可 能 的 组 合 ， 但 在 这 个 例子 中 ， 一 共有 12 个 航班 ， 
每 种 航班 又 有 10 种 可 能 ， 因 此 会 得 到 10”( 大 约 1000 亿 ) 种 组 合 。 测 试 每 种 组 合 能 确保 我 
们 得 到 最 优 的 答案 ， 但 是 在 大 多 数 计算 机 上 ， 这 会 花费 非常 长 的 时 间 。 
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随机 搜索 不 是 一 种 非常 好 的 优化 算法 ， 但 是 它 却 使 我 们 很 容易 领会 所 有 算法 的 真正 意图 ， 
并 且 它 也 是 我 们 评估 其 他 算法 优 消 的 基线 (baseline), 


这 个 函数 接受 两 个 参数 。Domain 是 一 个 由 二 元 组 (2-tuples) 构成 的 列表 ， 它 指定 了 每 个 变 
量 的 最 小 最 大 值 。 题 解 的 长 度 与 此 列表 的 长 度 相 同 。 在 当前 的 例子 中 ， 每 个 人 都 有 10 个 往 
程 航班 和 10 个 返程 航班 ， 因 此 列表 中 的 domain 是 (0,9)， 每 个 人 重复 两 次 。 


第 二 个 参数 ，costf， 是 成 本 函数 ， 本 例 中 即 是 schedulecost。 将 其 作为 参数 传人 是 为 了 
i 上 这 个 函数 能 够 为 其 他 优化 问题 所 重用 。 此 峭 数 会 随机 产生 1 000 次 猜测 ， 并 对 每 一 次 猜测 
调用 costf。 它 会 跟踪 最 佳 猜测 ( 即 具有 最 低 成 本 的 题解 ) 并 将 结果 返回 。 请 将 该 函数 加 


人 optimization.py: 


def randomoptimize (domain,costf): 
best=999999999 
bestr=None 
for i in range(1000): 
# 创建 一 个 随机 解 
r=[random.randint (domain[i] [0],domain[i] [1)) 
for i in range(len(domain) ) ] 
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# 得 到 成 本 


cost=costf(r) 


# 与 到 目前 为 止 的 最 优 解 进行 比较 
if cost<best: 
best=cost 
bestr=r 
return r 


当然 ，1 000 次 猜测 在 全 部 可 能 性 中 仅 占 非常 小 的 一 部 分 。 然 而 在 本 例 中 ， 我 们 可 能 会 从 中 
找到 不 少 表现 尚 可 的 题解 (即便 不 是 最 优 的 )， 因 此 在 尝试 一 千 次 之 后 ， 该 函数 有 可 能 会 找 
到 一 个 看 似 不 算 很 差 的 解 。 请 在 你 的 Python 会 话 中 尝试 执行 一 下 该 函数 : 

>>> reload (optimization) 

>>> domain=[ (0,9) ]* (len (optimization. people) *2) 


>>> s=optimization. randomoptimize (domain, optimization. schedulecost) 
>>> optimization. schedulecost (s) 


3328 

>>> optimization. 本 
Seymour BOS 2:34-15:02 $109 12:08-14:05 $142 
Franny DAL ee 15:25 $342 9:49-13:51 $229 
Zooey CAK 9:15-12:14 $247 15:50-18:45 $243 
Walt MIA 15:34-18:11 $326 14:08-16:09 $232 
Buddy ORD 14:22-16:32 $126 15:04-17:23 $189 
Les OMA 15:03-16:42 $135 6:19=- 8:13 $239 


由 于 是 随机 的 原因 ， 你 所 得 到 的 结果 将 会 与 此 处 给 出 的 结果 有 所 不 同 。 上 述 结果 不 算 很 好 ， 
因为 Zooey 须要 在 机 场 等 候 6 个 小 时 直至 Walt 到 达 ， 但 是 这 样 的 结果 显然 不 算是 最 差 的 。 
多 执行 几 次 该 函数 ， 看 看 成 本 值 是 否 变化 很 大 ， 或 者 把 循环 次 数 增加 到 10 000， 看 看 是 否 
能 按 此 方向 找到 更 优 的 结果 。 


Rew iz 
Hill Climbing 
随机 尝试 各 种 题解 是 非常 低 效 的 ， 因 为 这 种 方法 没有 充分 利用 已 经 发 现 的 优 解 。 在 我 们 的 


例子 中 ， 拥 有 较 低 总 成 本 的 时 间 安 排 很 可 能 接近 于 其 他 低 成 本 安排 。 因 为 随机 优化 是 到 处 
跳跃 的 (jumps around) ， 所 以 它 不 会 自动 去 寻找 与 已 经 被 发 现 的 优 解 相 接近 的 题解 。 


随机 搜索 的 一 个 替代 方法 叫做 息 山 法 。 耻 山 法 以 一 个 随机 解 开始 ， 然 后 在 其 和 临近 的 解 集中 
寻找 更 好 的 题解 (具有 更 低 的 成 本 )。 这 类 似 于 从 斜坡 上 向 下 走 ， 如 图 5-1 Bras. 


想象 一 下 你 就 是 图 中 所 示 的 那个 人 ， 不 经 意 间 陷 人 了 这 块 区 域 中 ， 并 且 想 走 到 最 低 点 去 寻 
找 术 源 。 为 此 我 们 可 以 选择 任何 一 个 方向 ， 然 后 朝 着 最 为 险峻 的 斜坡 向 下 走 去 。 你 可 以 朝 
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图 5-1: 用 改 山 法 寻找 最 低 成 本 


着 最 为 险峻 的 斜坡 方向 一 直 走 下 去 ， 直 至 到 达 地 势 平坦 或 坡度 开始 向 上 倾斜 的 区 域 。 


我 们 可 以 应 用 这 种 仆 山 法 为 Glass 一 家 找到 最 好 的 旅行 安排 方案 。 先 从 一 个 随机 的 时 间 安 排 
开始 ， 然 后 再 找到 所 有 与 之 相 邻 的 安排 。 在 本 例 中 ， 亦 即 找到 所 有 相对 于 最 初 的 随机 安排 ， 
能 够 让 某 个 人 乘坐 的 航班 稍 早 或 者 稍 晚 一 些 的 安排 。 我 们 对 每 一 个 相 邻 的 时 间 安 排 都 进行 
成 本 计算 ， 具 有 最 低 成 本 的 安排 将 成 为 新 的 题解 。 重 复 这 一 过 程 直到 没有 相 邻 安排 能 够 改 
善 成 本 为 止 。 


为 了 实现 这 一 功能 ， 请 将 hiliclimb 添加 到 optimization.py 文件 中 ， 


def hillclimb(domain,costf): 
# 创建 一 个 随机 解 
sol=[random.randint (domain[i] [0],domain[i] [1]}) 
for i in range(len(domain) ) ] 


# EMRK 
while 1: 


# 创建 相 邻 解 的 列表 
neighbors=[] 
for j in range{len{(domain)): 


# 在 每 个 方向 上 相对 于 原 值 偏离 一 点 
if sol[j]>domain[j][0]: 


neighbors.append(sol[0:j]+[sol[j]-1)+so0l[j+1:]) 
if sol[j)<domain[j] [1]: 
neighbors. append (sol(0:j3]+{sol[j]+1]+sol[j+1:}) 


# 在 相 邻 解 中 寻找 最 优 解 
current=costf (sol) 
best=current 
for j in range(len(neighbors)): 
cost=costf (neighbors [j]) 
if cost<best: 
best=cost 
sol=neighbors[j] 
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# 如 果 没 有 更 好 的 解 ， 则 有 退出 拍 环 
if best==current: 
break 


return sol 


该 函数 在 给 定 域内 随机 生成 一 个 数字 列表 ， 用 以 构造 初始 的 题解 。 它 通过 循环 遍历 列表 中 
的 每 一 个 元 素 ， 找 到 当前 解 的 所 有 相 邻 题解 ， 然 后 创建 出 两 个 新 的 列表 : 一 个 列表 中 的 元 
HIM 1， 另 一 个 列表 中 的 元 素 减 1。 相 邻 解 中 最 优 的 一 个 将 成 为 新 的 当前 题解 。 


请 在 你 的 Python 会 话 中 尝试 执行 该 函数 ， 看 看 与 随机 搜索 方法 相 比 ， 其 效果 如 何 ; 


>>> 8=optimization.hillclimb(domain, optimization.schedulecost) 
>>> optimization.scheđulecost (s) 


3063 

>>> optimization.printschedule(s) 
Seymour BOS 12:34-15:02 $109 10:33-12:03 $ 74 
Franny DAL 10:30-14:57 $290 10:51-14:16 $256 
Zooey CAK 10:53-13:36 $189 10:32-13:16 $139 
walt MIA 11:28-14:40 $248 12:37-15:05 $170 
Buddy ORD 12:44-14:17 $134 10:33-13:11 $132 
Les OMA 11:08-13:07 $175 18:25-20:34 $205 


该 函数 的 运行 速度 很 快 ， 并 且 找 到 的 解 通常 要 比 随机 搜索 方法 找到 的 更 好 。 然 而 ， 疏 山 法 
有 一 个 较 大 的 缺陷 。 如 图 5-2 所 示 : 





图 5-2: 陷入 局 部 范围 内 的 最 小 值 


从 上 图 中 我 们 可 以 很 明显 地 看 出 ， 简 单 地 从 斜坡 滑 下 不 一 定 会 产生 全 局 最 优 解 。 最 后 的 解 
会 是 一 个 局 部 范围 内 的 最 小 值 ， 它 比邻 近 解 的 表现 都 好 ， 但 却 不 是 全 局 最 优 的。 全 局 最 优 
解 就 是 全 局 最 小 值 ， 它 是 优化 算法 最 终 应 该 找到 的 那个 解 。 解 决 这 一 难题 的 一 种 方法 被 称 
为 随机 重复 朴 山 法 (random-restart hill climbing)， 即 让 疏 山 法 以 多 个 随机 生成 的 初始 解 为 起 
点 运行 若干 次 ， 借 此 希望 其 中 有 一 个 解 能 够 逼近 全 局 的 最 小 值 。 在 后 面 两 节 中 ， 我 们 将 向 
大 家 展示 避免 陷 人 局 部 最 小 值 的 其 他 方法 ， 它 们 分 别 是 : 模 执 退火 算法 和 遗传 算法 。 
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模拟 退火 算法 是 受 物 理学 领域 启发 而 来 的 一 种 优化 算法 。 退 火 是 指 将 合金 加 热 后 再 慢 慢 冷 
却 的 过 程 。 大 量 的 原子 因为 受到 激发 而 向 周围 跳跃 ， 然 后 又 逐渐 稳定 到 一 个 低能 阶 的 状态 ， 
所 以 这 些 原子 能 够 找到 一 个 低能 阶 的 配置 (configuration), 


退火 算法 以 一 个 问题 的 随机 解 开 始 。 它 用 一 个 变量 来 表示 温度 ， 这 一 温度 开始 时 非常 高 ， 
尔后 逐渐 变 低 。 每 一 次 迭代 期 间 ， 算 法 会 随机 选中 题解 中 的 某 个 数字 ， 然 后 朝 某 个 方向 变 
化 。 在 我 们 的 例子 中 ，Seymour 的 返程 航班 也 许 会 从 当天 的 第 二 趟 移 到 第 三 趟 。 其 成 本 会 在 
这 一 变化 前 后 分 别 计算 出 来 ， 并 进行 比较 。 


算法 最 为 关键 的 部 分 在 于 : 如 果 新 的 成 本 值 更 低 ， 则 新 的 题解 就 会 成 为 当前 题解 ， 这 和 让 
山 法 非常 相似 。 不 过 ， 如 果 成 本 值 更 高 的 话 ， 则 新 的 题解 仍 将 可 能 成 为 当前 题解 。 这 是 避 
免 图 5-2 中 局 部 最 小 值 问题 的 一 种 尝试 。 


某 些 情况 下 ， 在 我 们 能 够 得 到 一 个 更 优 的 解 之 前 转向 一 个 更 差 的 解 是 很 有 必要 的 。 模 拟 退 
火 算法 之 所 以 管用 ， 不 仅 因为 它 总 是 会 接受 一 个 更 优 的 解 ， 而 且 还 因为 它 在 退火 过 程 的 开 
始 阶段 会 接受 表现 较 差 的 解 。 随 着 退火 过 程 的 不 断 进 行 ， 算 法 越 来 越 不 可 能 接受 较 差 的 解 ， 
直到 最 后 ， 它 将 只 会 接受 更 优 的 解 。 更 高 成 本 的 题解 ， 其 被 接受 的 概率 由 下 列 公式 给 出 ， 


CO 
因为 温度 (接受 较 差 解 的 意愿 ) 开始 非常 之 高 ， 指 数 将 总 是 接近 于 0， 所 以 概率 几乎 为 1。 
随 着 温度 的 递减 ， 高 成 本 值 和 低 成 本 值 之 间 的 差异 越 来 越 重要 一 一 差异 越 大 ， 概 率 越 低 ， 
因此 该 算法 只 倾向 于 稍 差 的 解 而 不 会 是 非常 差 的 解 。 


请 在 optimization.py 文件 中 创建 一 个 名 为 annealingoptimize 的 新 国 数 ， 实 现 上 述 算 法 ; 


def annealingoptimize (domain, costf, T=10000.0,cool=0.95, step=1): 
# 随机 初始 化 值 
vec=[float (random. randint (domain[i] [0],domain[i][1])) 
for i in range (len (domain) )) 


while T>0.1: 
# 选择 一 个 索引 值 


i=random.randint (0, len (domain)-1) 


# 选择 一 个 改变 索引 值 的 方向 


dir=random. randint (-step, step) 
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# 创建 一 个 代表 题解 的 新 列表 ， 改 变 其 中 一 个 值 
vecb=vec[:] 

vecb[(i]+=dir 

if vecb[i]<domain[i] [0]: vecb[i]=domain[i] [0] 
elif vecb[{i]>domain[i]{1]: vecb{i]=domain[i] [1] 


# 计算 当前 成 本 和 新 的 成 本 
ea=costf (vec) 
eb=costf (vecb) 


E 它 是 更 好 的 解 吗 ? 或 者 是 趋向 最 优 解 的 可 能 的 临界 解 吗 ? 
if (eb<ea or random.random()<Pow (math.e,-(eb-ea)/T)): 
vec=vecb 


# 降低 温度 
T=T*cool 
return vec 


为 了 退火 ， 函 数 首先 创建 一 个 具有 合适 长 度 的 随机 解 ， 其 中 的 所 有 值 都 位 于 定义 域 参 数 指 
定 的 范围 内 。 温 度 和 冷却 率 是 两 个 可 选 的 参数 。 函 数 会 在 每 次 迄 代 时 ， 将 i 设 为 题解 的 一 
个 随机 索引 ,并 将 dir 设 为 介 于 -step 与 step 之 间 的 某 个 随机 数 。 该 算法 会 计算 当前 函数 
的 成 本 ， 以 及 以 dir 为 增 量 对 i 处 的 值 进行 修改 时 的 函数 成 本 。 


粗 体 显 示 的 代码 行 是 关于 概率 计算 的 ， 概 率 的 值 随 着 T 的 降低 而 降低 。 如 果 介 于 0 和 1 之 
间 的 某 个 随机 浮 点 数 小 于 该 值 ， 或 者 如 果 新 的 题解 更 优 ， 那 么 该 函数 将 接受 新 的 题解 。 函 
数 中 的 循环 过 程 直到 温度 几乎 等 于 0 为 止 ， 每 次 循环 会 将 温度 值 与 冷却 率 相 乘 。 


现在 ， 我 们 可 以 在 自己 的 Python 会 话 中 尝试 使 用 模拟 退火 算法 来 进行 优化 了 : 
>>> reload (optimization) 


>>> s=optimization.annealingoptimize (domain, optimization. schedulecost) 
>>> optimization. schedulecost(s) 


2278 

>>> optimization. printschedule(s) 
Seymour BOS 12:34-15:02 $109 10:33-12:03 $ 74 
Franny DAL 10:30-14:57 $290 10:51-14:16 $256 
Zooey CAK 10:53-13:36 $189 10:32-13:16 $139 
Walt MIA 11:28-14:40 $248 12:37-15:05 $170 
Buddy ORD 12:44-14:17 $134 10:33-13:11 $132 
Les OMA 11:08-13:07 $175 15:07-17:21 $129 


这 种 优化 算法 在 保持 成 本 持续 下 降 的 同时 ， 在 减少 总 的 执行 时 间 方 面 也 表现 不 俗 。 很 显然 ， 
你 得 到 的 结果 可 能 会 有 所 不 同 ， 甚 至 有 可 能 碰巧 会 得 到 一 个 较 差 的 结果 。 对 于 任何 一 个 给 
定 的 问题 ， 不 妨 使 用 不 同 的 参数 (初始 温度 和 冷却 率 ) 做 一 做 试验 。 你 还 可 以 改变 代表 随 
机 推进 的 step 值 的 大 小 。 
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遗传 算法 


Genetic Algorithms 


另 一 类 优化 技术 也 是 受 自然 科学 的 启发 ， 被 称 为 遗传 算法 。 这 类 算法 的 运行 过 程 是 先 随机 
生成 一 组 解 ， 我 们 称 之 为 种 群 (population)。 在 优化 过 程 中 的 每 一 步 ,算法 会 计算 整个 种 群 
的 成 本 函数 ， 从 而 得 到 一 个 有 关 题 解 的 有 序列 表 。 示 例如 表 5-1 所 示 。 


表 5-1， 题解 及 成 本 的 有 序列 表 


ities oe E soe oe "7 GEE 和 
题解 FE fi Pet are he ae yee | 成 本 rn ee > TRAD ke 
(7; Sy Zs Se Ls 6, : 6, Ty T, 0, 3) 4394 
(7, 2, 2, 2 3, 3, 2, 3. 5. 2, 0, 8) 4661 
LQ. 4, 0, 3, 8. 8, 4, 4, 8, 5, 6, 1] 7845 
(5, 8, 0, 2, 8, 8, 8, 2, 1, 6, 6, 8) 8088 


在 对 题解 进行 排序 之 后 ， 一 个 新 的 种 群 一 一 我 们 称 之 为 下 一 代 一 一 被 创建 出 来 了 。 首 先 ， 
我 们 将 当前 种 群 中 位 于 最 顶端 的 题解 加 入 其 所 在 的 新 种 群 中 。 我 们 称 这 一 过 程 为 精英 选拔 
法 (elitism)。 新 种 群 中 的 余下 部 分 是 由 修改 最 优 解 后 形成 的 全 新 解 所 组 成 的 。 


有 两 种 修改 题解 的 方法 。 其 中 较为 简单 的 一 种 被 称 为 变异 (mutation)， 其 通常 的 做 法 是 对 
一 个 既 有 解 进行 微小 的 、 简 单 的 、 随 机 的 改变 。 在 本 例 中 ， 要 完成 变异 只 须 从 题解 中 选择 
一 个 数字 ， 然 后 对 其 进行 递增 或 递减 即 可 。 图 5-3 中 给 出 了 两 个 示例 。 





(7, 5, 2 3, 1, 6, LEJT, 1, 0, 3 eet [7, 5, 2, 3, 1, 6, G7, 1, 0, al 





[7, 2, 2, 2s 3, 3, 2, 3, 5, 20) 8) ee [7, 2, 2, 2, 3, 3, 2, 3, 5, 208] 





图 5-3: 针对 题解 的 变异 示例 


修改 题解 的 另 一 种 方法 称 之 为 交叉 (crossover) 或 配对 (breeding)。 这 种 方法 是 选取 最 优 解 
中 的 两 个 解 ， 然 后 将 它们 按 某 种 方式 进行 结合 。 在 本 例 中 ， 要 实现 交叉 的 一 种 简单 方式 是 ， 
从 一 个 解 中 随机 取出 一 个 数字 作为 新 题解 中 的 某 个 元 素 ， 而 剩余 元 素 则 来 自 另 一 个 题解 ， 
如 图 5-4 所 示 。 


一 个 新 的 种 群 是 通过 对 最 优 解 进行 随机 的 变异 和 配对 处 理 构造 出 来 的 ， 它 的 大 小 通常 与 旧 
的 种 群 相同 。 尔 后 ， 这 一 过 程 会 一 直 重 复 进行 一 一 新 的 种 群 经 过 排序 ， 又 一 个 种 群 被 构造 
出 来 。 达 到 指定 的 迭代 次 数 ， 或 者 连续 经 过 数 代 后 题解 都 没有 得 到 改善 ， 整 个 过 程 就 结束 
ts 
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[7, 5, 2, 3, 1, 6, 1, 6,17, 1, 0, 3] 
[7, 5, 2, 3, 1, 6, 1, 615, 2, O, 8] 


[7, 2, 2, 2, 3, 3, 2, 3,15, 2, O, 8] 
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图 5-4: 交叉 示例 
请 将 geneticoptimize 添加 到 optimization.py 文件 中 : 


def geneticoptimize{domain,costf,popsize=50, step=1, 
mutprob=0.2,elite=0.2,maxiter=100): 
# 变异 操作 
def mutate(vec): 
israndom. randint (0, len(domain) -1) 
if random.random()<0.5 and vec[{i]>domain[i] [0]: 
return vec[0:i]+[{vec[i]-step]+vec[i+1:] 
elif vec[i]<domain[1i] [1]: 
return vec[0:iJ+[{vec[{i]+step)+vec[i+1:] 


# 交叉 操作 

def crossover(rl,r2): 
i=random.randint (1, len (domain) -2) 
return rl[0:i]+r2[i:} 


# 构造 初始 种 群 
pop=[] 
for i in range(popsize): 
vec= [random. randint (domain[i][0],domain[i][1]) 
for i in range(len(domain) )] 
pop. append (vec) 


# 每 一 代 中 有 多 少 胜 出 者 ? 


topelite=int (elite*popsize) 


# EH 

for i in range(maxiter)):: 
scores=[(costf(v),v) for v.in pop] 
scores.sort () 
ranked=[v for {s,v} in scores] 


# 从 纯粹 的 胜出 者 开始 
pop=ranked[0:topelite] 


# 添加 变异 和 配对 后 的 胜出 者 
while len(pop)<popsize: 
if random.random{)<mutprob: 
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# 变异 


c=random.randint (0, topelite) 
pop. append (mutate (ranked[c]) ) 


else: 


# 交叉 


cl=random. randint (0, topelite) 
c2=random. randint (0, topelite) 
pop. append (crossover (ranked[cl], ranked[c2])) 


# 打印 当前 最 优 值 


print scores[0][0] 


return scores[0] [1] 


上 述 函 数 引 入 了 几 个 可 选 的 参数 ， 


popsize 


种 群 大 小 


mutprob 


种 群 的 新 成 员 是 由 变异 而 非 交 叉 得 来 的 概率 。 


elite 


种 群 中 被 认为 是 优 解 且 被 允许 传人 下 一 代 的 部 分 。 


maxiter 


须 运 行 多 少 代 。 


请 尝试 在 你 的 Python 会 话 中 ， 运 用 遗传 算法 优化 一 下 旅行 计划 : 


>>> gs=optimization.geneticoptimize (domain,optimization.schedulecost) 


2591 


>>> optimization.printschedule(s) 
Seymour 


Franny 
Zooey 
Walt 
Buddy 
Les 


BOS 


334-15: 
:30-14: 
53-13: 
:28-14: 
:44-14; 
:08-13: 


02 
57 
36 
40 
17 
07 


$109 
$290 
$189 
$248 
$134 
$175 


:33-12:03 
:51-14:16 
:32-13:16 
237-15:05 
:33-13:11 
:07-13:24 


$ 74 
$256 
$139 
$170 
$132 
$171 


在 第 11 章 中 ， 我 们 还 将 看 到 遗传 算法 的 一 个 拓展 ， 称 为 遗传 编程 (genetic programming), 


在 那里 ， 我 们 采用 了 类 似 的 思路 来 完整 构造 新 的 程序 。 
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aa 提示 : 计算 机 村 学 家 John Holland HHA 1975 年 所 撰写 的 《自然 
与 人 造 系统 的 适应 性 (Adaptation in Natural and Artificial Systems)》 
Was 一 书 〈 密 歌 根 大 学 出 版 社 ) ， 而 被 公认 为 是 遗传 算法 之 父 。 但 是 相 
关 的 研究 工作 还 可 以 追溯 到 20 世纪 50 年代, 那 时 的 生物 学 家 们 已 
经 开始 尝试 在 计算 机 上 进行 进化 建 模 了 。 从 那 以 后 , 遗传 算法 和 其 

他 优化 方法 已 经 被 广泛 应 用 于 许多 不 同 的 问题 。 


© 寻找 能 够 给 出 最 住 音效 的 音乐 厅 外 形 。 
© 为 超 音速 飞机 设计 最 佳 的 机 愤 。 
© 给 出 最 佳 的 化 学 制品 库 以 供 研发 前 沿 药物 参考 之 用 。 
© 自动 化 设计 语音 识别 芯片 。 
我 们 可 以 将 这 些 问题 的 潜在 解 转化 成 数字 列表 ,这样 我 们 就 可 以 很 
容易 地 应 用 遗传 算法 或 模拟 退火 算法 了 ， 
一 种 优化 方法 是 否 管用 很 大 程度 上 取决 于 问题 本 身 。 模 拟 退 火 算 法 、 遗 传 算法 ， 以 及 大 多 


数 其 他 优化 方法 都 有 赖 于 这 样 一 个 事实 : 对 于 大 多 数 问题 而 言 ， 最 优 解 应 该 接近 于 其 他 的 
优 解 。 来 看 一 个 优化 可 能 不 起 作用 的 例子 ， 如 图 5-5 所 示 。 


图 5-5; 很 难 优化 的 问题 


在 图 的 最 右边 ， 成 本 的 最 低 点 实际 上 处 在 一 个 非常 陡峭 的 区 域 。 接 近 它 的 任何 解 都 有 可 能 
被 排除 在 外 ， 因 为 这 些 解 的 成 本 都 很 高 ， 所 以 我 们 永远 都 找 不 到 通 往 全 局 最 小 值 的 途径 。 
大 多 数 算法 都 会 陷入 图 中 左边 某 个 局 部 最 小 化 的 区 域 里 。 


优化 算法 对 航班 安排 的 例子 之 所 以 管用 是 因为 ,我们 将 一 个 人 从 当天 的 第 二 次 航班 转移 到 
第 三 次 航班 ， 要 比 将 他 转移 到 第 八 次 航班 更 有 可 能 降低 总 成 本 。 如 果 航 班 处 于 无 序 状态 ， 
那么 优化 方法 的 效果 是 不 会 比 随机 搜索 好 多 少 的 一 一 事实 上 ， 在 这 种 情况 下 ， 没 有 任何 一 
种 优化 方法 一 定 会 比 随机 搜索 更 加 有 效 。 
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真实 的 航班 搜索 


Am 
ja n 
(1 t Searches 


既然 对 于 示例 数据 而 言 一 切 都 没有 问题 了 ， 那 么 是 我 们 尝试 利用 真实 的 航班 数据 对 前 述 优 
.化 算法 的 有 效 性 进行 考查 的 时 候 了。 为 此 我 们 可 以 从 Kayak 网 站 下 载 数据 ，Kayak 提供 了 
一 套用 于 航班 搜索 的 API, 真实 的 航班 数据 与 你 正在 使 用 的 示例 数据 的 主要 区 别 在 于 , 在 真 
实数 据 中 ， 各 大 城市 之 间 每 天 的 航班 远 超 过 9 次。 


Kayak API 


如 图 5-6 所 示 , Kayak 是 一 个 很 受 欢 迎 的 旅游 类 垂直 搜索 引擎 .尽管 有 许多 在 线 的 旅游 站 点 ， 
但 是 Kayak 对 本 例 而 言 还 是 很 有 价值 的 ， 因 为 它 有 一 套 非常 不 错 的 XML API， 我 们 可 以 利 
用 这 套 API 在 Python 程序 中 执行 真实 的 旅游 搜索 。 为 了 使 用 这 套 API， 我 们 必须 去 
http:/Awww.kayak.com/labs/api/search 注册 一 个 开发 者 密 钥 (developer key), 


<C Has Hoteis cas Deals | Buzz Forums 


K AYA K Life's a tip. Boston, MA to New York, NY Tue 12 Dec 2006 - Fn 15 Dec 2006 / roun 
加 Start search over Price® < Airports Airline Depart Arrive Steps (Duration) 


390 of 514 results shown show all @ Use the controls to the lett to show and hide flights. 
$121 BOS > LGA i 6-00a 7.11a 0 (th 11mj 
[nonstop 加 :1 stop 回 2+ stops LGA> BOS United 600a 652a 0 08: 52m, 


united $121 cheaptickets $124 


orbitz $125 details email 


BOS > LGA 600a 71a 0 (th im 
LGA > Bos A United 4 99, ho 


united $121 cheaptickets $124 - details email 


BOS > LGA gay United 6 00a g 0 ith tim 


LGA > BOS 7:00a - 0 ;1h02m) 

united $121 cheaptickets $124 hai i 
t $125 etais emai 

BOS > LGA 7:1ta 0 (th 11m) 

LGA s BOS A United 1 ol 101p 0 ilhan 
nited $121 cheaptickets $124 

sag $125 details email 


BOS > LGA A 1 initad 6.00a 7: 和 3a 0 Fih To) 





5-6: Kayak 旅游 搜索 界面 的 截屏 图 


开发 者 密 钥 是 一 个 由 数字 与 字母 组 合 而 成 的 长 种， 利用 它 我 们 可 以 在 Kayak 中 进行 航班 搜 
索 (我 们 也 可 以 用 它 来 搜索 旅馆 ， 不 过 这 不 是 本 章 要 讨论 的 话题 )。 在 本 书 撰写 期 间 ， 还 设 
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有 像 del.icio.us 那样 的 专用 于 Kayak 的 Python API， 不 过 Kayak 的 XML 接口 是 很 好 理解 的 。 
本 章 将 为 你 示范 怎样 用 Python 的 urllib2 包 和 xml.dom.minidom 包 来 建立 搜索 ， 这 两 个 包 都 
位 于 标准 的 Python 发 布 包 中 。 


minidom 包 


Foe puregom Packace 


minidom 是 标准 Python 发 布 包 的 一 部 分 。 它 是 文档 对 象 模型 (DOM) 接口 的 一 个 轻 量 级 实 
现 ,DOM 是 一 种 将 XML 文档 当 作 对 象 树 来 看 待 的 标准 方式 .这 个 包 接 受 字符 串 或 包含 XML 
的 开放 文件 作为 输入 ， 然 后 返回 一 个 对 象 ， 我 们 可 以 利用 该 对 象 轻 松 地 提取 信息 。 例 如 ， 
我 们 可 以 在 Python 会 话 中 输入 下 面 的 代码 : 


>>> import xml .dom.minidom 

>>> dom=xml .dom.minidom.parseString ('<data><rec>Hello!</rec></data>') 
>>> dom 

<xml.dom.minidom.Document instance at 0x00980C38> 
>>> r=edom.getElementsByTagName ('rec') 

>>> r 

[<DOM Element: rec at 0xa42350>] 

>>> r[0] .firstChild 

<DOM Text node "Hello!"> 

>>> r[0].firstChild.data 

u'Hello!' 


由 于 许多 Web 站 点 现在 都 提供 了 利用 XML 接口 来 访问 信息 的 方式 ， 所 以 学 习 怎样 使 用 
Python 的 XML 包 对 于 集体 智慧 编程 (collective intelligence programming) 而 言 是 非常 有 用 
的 。 下 面 这 些 是 我 们 将 要 在 Kayak API 中 用 到 的 操作 DOM 对 象 的 重要 方法 。 


getElementsByTagName (name) 


在 整个 文档 范围 内 搜索 标签 名 与 name 相 匹 配 的 元 素 , 然后 返回 一 个 包含 所 有 满足 条 件 
的 DOM 节点 的 列表 。 


firstChild 


返回 对 象 的 首 个 子 节点 。 在 上 面 的 例子 中 ，Fz 的 首 个 子 节点 就 是 代表 文本 “Hello” 的 
节点 


data 


返回 与 对 象 有 关 的 数据 ， 大 多 数 情况 下 这 些 数据 就 是 该 节点 所 内 含 的 一 个 Unicode X 
本 


neea 


首先 请 新 建 一 个 名 为 kayak py 的 文件 ， 然 后 加 入 下 面 的 代码 ; 
import time 
import urllib2 
import xml.dom.minidom 


kayakkey=' YOURKEYHERE ' 
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我 们 要 做 的 第 一 件 事情 是 通过 编写 代码 利用 开发 者 密 钥 来 获得 一 个 新 的 Kayak 会 话 。 实 现 
此 功能 的 函数 会 向 apisession 发 送 一 个 带 有 token 参数 ( 设 有 你 的 开发 者 密 钥 ) 的 请 求 。 
由 该 URL 所 返回 的 XML 中 会 包含 一 个 sid 标签， 内 有 session ID; 


<sid>1-hx41II_wS$8b06a07kHj</sid> 


下 面 的 函数 只 须 对 XML 进行 解析 , 以 得 到 sid 标签 的 内 容 。 请 将 该 函数 加 入 kayak.py 文件 
中 : 
def getkayaksession{): 


# Hit URL 以 开启 一 个 会 话 
url='http://www.kayak.com/k/ident/apisession?token=tséversion=1"’ % kayakkey 


# 解析 返回 的 XML 


doc=xml .dom.minidom.parseString {urllib2.urlopen (url) .read{)) 


# 找到 <sid>xxxxxxxx</sid> 标 签 
sid=doc.getElementsByTagName ('sid') [0].firstChild.data 
return sid 


下 一 步 是 新 建 一 个 国 数 ， 开 始 进行 航班 搜索 。 用 于 该 搜索 的 URL 会 很 长 ， 因 为 它 包含 了 供 
航班 搜索 之 用 的 所 有 参数 。 这 其 中 最 为 重要 的 参数 包括 sid (getkayaksession 函数 返回 
的 会 话 ID), destination, 以 及 depart_date, 


返回 的 XML 有 个 名 为 searchid 的 标签 ， 函 数 将 采用 与 getkayaksession 同样 的 方式 来 
提取 XML 中 的 内 容 。 因 为 搜索 也 许 会 花费 很 长 的 时 间 ， 所 以 该 调用 最 后 实际 上 不 会 返回 任 
何 结果 一 一 它 仅 仅 是 启动 搜索 ， 然 后 返回 一 个 可 以 用 来 获得 结果 的 ID。 


请 将 该 函数 加 入 kayak.py 文件 中 : 


def flightsearch(sid,origin, destination, depart_date): 


+ 构造 搜索 用 的 URL 

url="http: //www. kayak.com/s/apisearch?basicnode=truesoneway~ysorigin=%s' % origin 
url+='é&destination=%tsé&depart date=%ts' % (destination,depart date) 
url+="&return_ date=nones&depart time=aéreturn_time=a' 
url+='étravelers=lécabin=e&éaction=doFlightss&apimode=1' 
url+='& sid =%tséversion=1' % (sid) 


# 得 到 XML 
doc=xml.dom.minidom.parseString(urllib2.urlopen(url).read() ) 


# 提取 搜索 用 的 ID 
searchid=doc.getElementsByTagName ('searchid') [{0).firstChild.data 


return searchid 
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最 后 , 我 们 还 需要 一 个 函数 来 不 断 地 请 求 结果 , 直到 没有 任何 新 结果 获得 为 止 。Kayak 提供 
了 另外 一 个 URL 一 一 flight ， 它 会 给 出 航班 的 查询 结果 。 在 返回 的 XML 中 有 一 个 more- 
pending 标签 ， 直 到 搜索 过 程 完成 为 止 ， 该 标签 中 始终 会 包含 一 个 “true” 的 字样 。 这 个 函 
数 须要 一 直 请 求 页 面 到 morepending PHAR (true) Aik, 这样 函 数 才 能 够 得 到 完整 的 
结果 。 


请 将 该 函数 加 入 kayak. py 文件 中 : 


def flightsearchresults (sid, searchid): 





# 删除 开头 的 S 和 过 号， 并 把 数字 转化 成 浮 点 类 型 
def parseprice(p): 
return float(p[1:].replace(‘',','')) 


# 遍历 检测 
while 1: 
time.sleep (2) 


# 构造 检测 所 用 的 URL 

url='http://www.kayak.com/s/basic/flight?' 
url+="searchid=%ts&c=5éapimode=1& sid =ts&version=1' % (searchid, sid) 
doc=xml.dom.minidom.parseString (urllib2.urlopen (url) .read()) 


# 寻找 morepending 标签 ， 并 等 待 其 不 再 为 true 
morepending=doc.getElementsByTagName ('morepending')[Qj .firstChild 
if morepending==None or morepending .data=='false': break 


# 现在 、 下 载 完整 的 列表 

url='"http://www.kayak.com/s/basic/flight?’ 
url+='searchid=%ts&c=999éapimode=1& sid =%s&version=1' % (searchid, sid) 
doc=xml.dom.minidom.parseString(urllib2.urlopen (url) .read()) 


# 得 到 不 同 元 素 组 成 的 列表 
prices=doc.getElementsByTagName ('price') 
departures=doc.getElementsByTagName (/depart') 
arrivals=doc.getElementsByTagName (‘arrive') 


# A zip 将 它们 连 在 一 起 

return zip([(p.firstChild.data.split(’ ')[1] for p in departures], 
[p.firstChild.data.split(' ')[(1] for p in arrivals], 
[parseprice(p.firstChild.data) for p in prices]) 


TEM: 函数 在 结尾 处 得 到 了 所 有 的 price, depart 和 arrive 标签 。 对 它们 三 者 而 言 ， 各 
自 有 相同 数量 的 一 组 数据 一 一 每 三 个 数据 对 应 一 次 航班 一 一 因此 我 们 可 以 用 zip 函数 将 它 
们 连 在 一 起 ， 形 成 一 个 大 列表 中 的 若干 元 组 。 由 于 出 发 和 到 达 的 信息 是 以 空格 分 隔 的 日 期 
加 时 间 的 形式 给 出 的 ， 因 此 我 们 可 以 用 函数 将 字符 串 分 隔 以 得 到 时 间 值 。 函 数 还 将 价格 传 
递 给 了 parseprice， 将 其 转化 成 浮 点 类 型 。 





104 | 第 5 章 : 优化 


ww ai bbt. com DOOO000 


为 了 确保 一 切 正常 ， 现 在 我 们 可 以 在 自己 的 Python 会 话 中 尝试 一 下 实际 的 航班 搜索 〈 记 住 
请 把 日 期 改 成 将 来 的 某 个 时 间 ) 


>>> import kayak 
>>> sid=kayak.getkayaksession () 
>>> searchid=kayak.flightsearch(sid,'BOS','LGA', '11/17/2006') 
>>> f=kayak.flightsearchresults (sid, searchid) 
>>> £[0:3] 
{(u'07:00°, u'08:25', 60.3), 
(u'08:30', u'09:49', 60.3), 
(u'06:35', u'07:54", 65.0) ) 


航班 数据 是 按 价格 排序 的 方式 返回 的 ， 对 于 价格 相同 的 航班 ， 则 按时 间 排 序 。 这 样 的 输出 
结果 非常 不 错 ， 因 为 正如 此 前 提 到 的 那样 ， 出 现 于 结果 中 的 相似 解 是 聚集 在 一 起 的 。 为 了 
将 该 函数 和 其 余 代码 整合 在 一 起 ， 我 们 唯一 要 做 的 就 是 ， 利 用 原先 已 从 文件 中 加 载 进来 的 
相同 结构 , 给 Glass 一 家 的 不 同 成 员 建立 一 个 完整 的 日 程 安排 。 为 此 我 们 只 须 遍 历 人 员 列 表 ， 
然后 对 往返 航班 进行 搜索 。 请 将 createschedule 函数 加 入 kayak.py 文件 中 : 


def createschedule (People,dest,dep,rzet) : 
# 得 到 搜索 用 的 会 话 id 
sid=getkayaksession({) 
flights={} 


for p in people: 
name, origin=p 
# 往 程 航班 
searchid=flightsearch (sid,origin,dest,dep) 
flights[ (origin, dest) }=flightsearchresults (sid, searchid) 


# 返程 航班 
searchid=flightsearch (sid,dest,origin,ret) 
flights[ (dest, origin) ]=flightsearchresults (sid, searchid) 


return flights 


现在 , 我 们 可 以 尝试 利用 实际 的 航班 数据 为 这 一 家 进行 航班 安排 的 优化 了 。Kayak 的 搜索 过 
程 可 能 要 花费 一 定 的 时 间 ， 因 此 开始 时 可 以 将 搜索 范围 限定 在 头 两 名 家 庭 成 员 。 请 在 你 的 
Python 会 话 中 输入 下 列 代码 : 


>>> reload (kayak) 

>>> f=kayak.createschedule (optimization.people[0:2],‘LGA', 

war °11/17/2006', '11/19/2006') 

>>> optimization. flights=f 

>>> domain=[ (0,30) ]*len(f) 

>>> optimization. geneticoptimize (domain,optimization.schedulecost) 


770.0 

703.0 

>>> optimization. printschedule(s) 
Seymour BOS 16:00-17:20 $85.0 19:00-20:28 $65.0 
Franny DAL 08:00-17:25 $205.0 18:55-00:15 $133.0 
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恭喜 你 ! 刚刚 你 已 经 根据 实时 的 航班 数据 进行 了 一 次 优化 的 过 程 。 由 于 搜索 的 范围 变 大 了 ， 
因而 我 们 不 妨 借 此 机 会 试验 一 下 算法 的 最 大 执行 速度 (maximum velocity) 和 学 习 速率 


(learning rate) 。 


有 很 多 种 方式 可 以 去 扩展 这 一 函数 。 我 们 可 以 将 它 与 天 气 搜索 结合 起 来 ， 以 找到 价格 合理 、 
在 旅游 期 间 气候 温暖 的 优化 方案 ， 或 者 将 之 与 旅馆 搜索 结合 起 来 ， 找 到 航班 和 旅馆 住宿 价 
格 都 合理 的 目标 解 。Intemet 上 有 数 以 千 计 的 站 点 提供 了 旅游 目的 地 的 相关 数据 ， 这 些 数据 
都 可 以 为 优化 算法 所 利用 。 


尽管 在 日 常 搜索 (searches per day) 方面 Kayak API 还 是 有 局 限 的 ， 但 是 它 的 确 为 我 们 返回 
了 可 以 直接 与 任何 航班 或 旅馆 进行 交易 的 链接 ， 这 意味 着 我 们 可 以 很 方便 地 将 这 个 API 集 
成 到 任何 应 用 程序 中 去 。 


涉及 偏好 的 优化 


Optimizing for Preferences 
t 


我 们 已 经 看 到 了 一 个 可 以 用 优化 算法 来 解决 问题 的 例子 ， 但 是 还 有 许多 表面 上 看 似 不 相关 
的 问题 ， 也 可 以 用 同样 的 方法 来 解决 。 请 记 住 ， 利 用 优化 算法 解决 问题 的 基本 要 求 是 : 问 
题 本 身 有 一 个 定义 好 的 成 本 函数 ， 并 且 相 似 的 解 会 产生 相似 的 结果 。 并 非 每 一 个 具有 此 类 
特征 的 问题 都 能 用 优化 算法 来 解决 ， 但 是 优化 算法 很 有 可 能 会 返回 一 些 此 前 我 们 未 兽 考虑 
到 的 值得 关注 的 结果 。 


本 节 我 们 将 考查 另 一 个 不 同 的 问题 ， 这 个 问题 很 明显 要 借助 优化 算法 来 加 以 解决 。 其 一 般 
的 表述 是 ， 如 何 将 有 限 的 资源 分 配给 多 个 表达 了 偏好 的 人 ， 并 尽 可 能 使 他 们 都 满意 (或 者 
根据 他 们 的 意愿 ， 尽 可 能 地 满足 他 们 的 需要 ) 。 


学 生 宿舍 优化 问题 


Student Dorm Optimization 


本 节 中 的 示例 问题 是 ， 依 据 学 生 的 首选 和 次 选 ， 为 其 分 配 宿舍 。 尽 管 这 是 一 个 非常 具体 化 
的 例子 ,但 是 将 这 种 情况 推广 到 其 他 问题 是 非常 容易 的 一 一 完全 相同 的 代码 可 以 用 于 在 线 
纸牌 游戏 中 玩家 的 牌 桌 分 配 ， 也 可 以 用 于 大 型 编程 项 目 中 开发 人 员 的 bug 分 配 ， 甚 或 用 于 
家 庭 成 员 中 的 家 务 分 配 。 人 须要 再 次 说 明 的 是 ， 这 类 问题 的 目的 是 为 了 从 个 体 中 提取 信息 ， 
并 将 其 组 合 起 来 产生 出 优化 的 结果 。 


本 例 中 有 5 间 宿 舍 ， 每 间 宿 舍 有 两 个 隔 间 ， 由 10 名 学 生来 竞争 住所 。 每 一 名 学 生 都 有 一 个 
首选 和 一 个 次 选 。 我 们 新 建 一 个 名 为 dorm py 的 文件 ,并 添加 宿舍 列表 和 人 员 列 表 , 以 及 每 
个 人 的 两 项 选择 : 
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import random 
import math 


# 代表 和 宿舍， 每 个 宿 含 有 两 个 可 用 的 隔 间 


dorms={['Zeus', 'Athena', 'Hercules', 'Bacchus','Pluto'] 


# 代表 学 生 及 其 首选 和 次 选 

prefs=[('Toby', ('Bacchus', 'Hercules')), 
("Steve’, ('Zeus', 'Pluto')), 
('Andrea', (‘Athena', ‘'Zeus')), 
("Sarah', ('Zeus', ‘Pluto')), 
("Dave’, (‘Athena', ‘Bacchus')), 
('Jeff', ('Hercules', ‘Pluto')), 
('Fred', ('Pluto', 'Athena')), 
('Suzie', ('Bacchus', ‘Hercules')), 
("Laura', ('Bacchus', 'Hercules')), 
('Neil', ("Hercules', '‘Athena'))] 


马上 你 就 会 发 现 , 每 个 人 都 不 可 能 满足 各 自 的 首选 ,因为 Bacchus 仅 有 两 个 隔 间 ， 而 想 要 住 
进去 的 人 却 有 三 个 。 将 这 些 人 中 的 任何 一 位 安置 于 他 们 的 次 选 宿舍 中 , 都 将 意味 着 Hercules 
中 没有 足够 的 空间 留 给 选择 它 的 人 。 


为 了 易于 理解 ， 我 们 有 意 将 这 个 问题 设计 得 很 小 巧 ， 但 在 真实 生活 中 ， 问 题 也 许 会 涉及 成 
百 上 千 名 学 生 在 更 大 数量 的 宿舍 范围 内 竞争 更 多 的 住所 。 因为 这 个 例子 仅 有 大 约 100 000 个 
可 能 的 解 ， 所 以 将 所 有 解 都 尝试 一 遍 并 从 中 找到 最 优 解 是 可 能 的 。 但 是 当 每 间 宿 舍 有 4 个 
隔 间 时 ， 这 一 数字 会 快速 增长 到 上 万 亿 。 


和 航班 问题 相 比 ， 本 题解 在 表达 上 更 需要 一 点 技巧 。 理 论 上 ， 我 们 可 以 构造 一 个 数字 序列 ， 
让 每 个 数字 对 应 于 一 名 学 生 ， 表 示 我 们 将 学 生 安置 在 了 某 一 间 宿 舍 。 问 题 在 于 ， 这 种 表达 
方式 无 法 在 题解 中 体现 每 间 宿 舍 仅 限 两 名 学 生 居 住 的 约束 条 件 。 一 个 全 零 序 列 代表 将 所 有 
人 都 安置 在 了 Zeus 宿舍 ， 这 不 是 一 个 有 效 的 解 。 


解决 这 一 问题 的 一 种 办 法 是 让 成 本 函数 返回 一 个 很 高 的 数值 ， 用 以 代表 无 效 解 ， 但 是 这 将 
使 优化 算法 很 难 找到 次 优 的 解 (better solutions) ， 因 为 算法 无 法 确定 返回 结果 是 否 接近 于 其 
他 优 解 (good solutions), ， 甚 或 是 有 效 的 解 。 一 般 而 言 ， 我 们 最 好 不 要 让 处 理 器 的 时 钟 周期 
浪费 在 无 效 解 的 搜索 上 。 


解决 这 一 问题 的 更 好 办 法 是 寻找 一 种 能 让 每 个 解 都 有 效 的 题解 表示 法 。 有 效 解 未 必 是 优 解 ， 
它 仅 代表 恰 有 两 名 学 生 被 安置 于 每 间 宿 舍 内 。 要 达到 这 一 目的 ， 一 种 办 法 是 设想 每 间 宿 舍 
都 有 两 个 “ 档 ”， 如 此 , 在 本 例 中 共计 有 LO 个 权 。 我 们 将 每 名 学 生 依 序 安置 于 各 空 槽 内 一 一 
第 一 位 可 置 于 10 个 槽 中 的 任何 一 个 内 ， 第 二 位 则 可 置 于 剩余 9 个 槽 中 的 任何 一 个 内 ， 依 次 
类 推 。 
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搜索 的 定义 域 必须 满足 这 一 约束 。 请 在 dorm py 中 加 和 如 下 代码 行 : 


# [(07937(058)7107 7)7 (0,6),..., (0,0) ) 
domain=[(0, {len{dorms}*2)-i-1) for i in range(0,len(dorms) *2)] 


打印 题解 的 代码 示范 了 槽 的 工作 方式 。 该 函数 首先 创建 一 个 槽 序列 ， 每 两 个 槽 对 应 一 间 宿 
舍 。 然 后 遍历 题解 中 的 每 个 数字 ， 并 在 槽 序列 中 找到 该 数字 对 应 的 宿舍 号 ， 表 示 学 生 被 安 
置 的 宿舍 。 此 函数 将 学 生 和 与 之 对 应 的 宿舍 打印 输出 ， 随 后 再 将 槽 从 序列 中 删除 ， 如 此 ， 
其 余 学 生 便 不 会 再 被 安置 于 该 槽 中 了 。 待 最 后 一 次 返 代 结束 之 后 ， 模 列 为 空 ， 且 每 名 学 生 
及 其 对 应 宿舍 也 都 打印 完毕 。 请 将 函数 加 入 dormpy 中 : 


def printsolution(vec): 
slots=[] 
# 为 每 个 宿舍 建 两 个 模 


for i in range(len(dorms)): slots+=[i,i] 


# 遍历 每 一 名 学 生 的 安置 情况 
for i in range (len{vec)): 
x=int (vec[i])) 


# 从 剩余 档 中 选择 
dorm=dorms [slots[x]] 

# 输出 学 生 及 其 被 分 配 的 宿舍 
print pvrefs[iJ][0],dorm 
# 删除 镇 模 

del slots[x] 


可 以 在 你 的 Python 会 话 中 导入 上 述 文件 ， 并 试 着 打印 一 个 题解 如 下 : 


>>> import dorm 
>>> dorm.printsolution([0,0,0,0,0,0,0,0,0,0]) 
Toby Zeus 

Steve Zeus 
Andrea Athena 
Sarah Athena 
Dave Hercules 
Jeff Hercules 
Fred Bacchus 
Suzie Bacchus 
Laura Pluto 
Neil Pluto 


如 果 你 想 改变 数值 查看 不 同 的 题解 ， 请 记 住 每 个 数值 必须 在 合理 的 域 值 范围 内 。 在 序列 中 ， 
第 一 项 的 值 可 以 介 于 0 到 9 之 间 ， 第 二 项 的 值 则 介 于 0 到 8 之 间 ， 依 次 类 推 。 如 果 我 们 设 
置 的 某 个 数值 超出 了 合理 的 域 值 范围 ， 则 函数 将 会 抛 出 异常 。 由 于 优化 函数 将 会 保证 数值 
在 域 值 范 围 之 内 (该 域 值 通 过 定义 域 参 数 来 指定 ), 因此 我 们 在 优化 期 间 不 会 遇 到 此 类 问题 。 
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apts hy 
| eth 


成 本 函数 
成 本 函数 的 工作 方式 与 打印 函数 类 似 。 构 造 一 个 槽 序列 ， 并 将 用 过 的 槽 删除 。 成 本 的 计算 
值 ， 是 通过 将 学 生 的 当前 宿舍 安置 情况 与 他 的 两 项 选择 进行 对 比 而 得 到 的 。 如 果 学 生 当前 
被 安置 的 宿舍 即 是 其 首选 宿舍 ， 则 总 成 本 加 0， 如 果 是 次 选 宿舍 则 加 1， 如 果 不 在 其 选择 之 
列 ， 则 加 3: 
def dormcost (vec): 

cost=0 

# 建立 一 个 槽 序列 

slots=[0,0,1,1,2,2,3,3,4, 4] 


# 遍历 每 一 名 学 生 

for i in range({len(vec)): 
x=int (vec[i)) 
dorm=dorms [slots[x] ] 
pref=prefs[i) [1] 
+ 首选 成 本 值 为 0， 次 选 成 本 值 为 1 
if pref [0]==dorm: cost+=0 
elif pref(1)==dorm: cost+=1 
else: cost+=3 


# 不 在 选择 之 列 则 成 本 值 为 3 


# MRAP OOM 
del slots[x] 


return cost 


在 构造 成 本 函数 时 有 一 条 法 则 很 有 用 ， 即 : 尽 可 能 让 最 优 解 的 成 本 为 零 ( 本 例 中 的 最 优 解 
就 是 将 每 个 人 都 安置 于 其 首选 宿舍 内 )。 在 本 例 中 ,我们 已 经 明确 不 存在 最 优 解 ， 但 是 知道 
最 优 解 的 成 本 为 零 ， 却 可 以 使 我 们 了 解 到 目前 与 最 优 解 的 差距 有 多 少 。 这 一 法 则 的 另 一 个 
好 处 在 于 ， 当 优化 算法 找到 一 个 最 优 解 时 ， 我 们 可 以 让 优化 算法 停止 搜寻 更 优 的 解 。 


执行 优化 函数 
Running the Optimization 


有 了 题解 的 表示 形式 、 成 本 函数 ， 以 及 结果 打印 输出 函数 ， 我 们 就 可 以 执行 此 前 定义 好 的 
优化 函数 了 。 请 在 你 的 Python 会 话 中 输入 如 下 内 容 : 


>>> reload (dorm) 

>>> s=ọptimization.randomoptimize (dorm.domain,dorm.dormcost) 
>>> dorm.dormcost (s) 

18 

>>> optimization. geneticoptimize (dorm.domain,dorm.dormcost) 
13 

10 


4 
>>> dorm.printsolution (s) 
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Toby Athena 
Steve Pluto 
Andrea Zeus 
Sarah Pluto 
Dave Hercules 
Jeff Hercules 
Fred Bacchus 
Suzie Bacchus 
Laura Athena 
Neil Zeus 


同样 ， 我 们 可 以 调整 输入 参数 ， 看 一 看 遗传 优化 算法 是 否 能 更 快 地 找到 一 个 优 解 。 


网 络 可 视 化 


了 —" 
Network Visualization 


本 章 的 最 后 一 个 例子 将 向 大 家 展示 优化 算法 的 另 一 种 用 途 ， 这 与 前 述 的 其 他 问题 丝毫 没有 
任何 关连 性 。 我 们 要 讨论 的 是 网 络 的 可 视 化 问题 。 此 处 的 网 络 ， 意 指 任何 彼此 相连 的 一 组 
事物 。 像 MySpace, Facebook 或 LinkedIn 这 样 的 社会 网 络 便 是 在 线 应 用 领域 中 的 一 个 极 好 
的 例子 。 在 那里 ， 人 们 因 互 为 朋友 或 具备 特定 关系 而 彼此 相连 。 网 站 的 每 一 位 成 员 可 以 选 
择 与 他 们 相连 的 其 他 成 员 ， 共 同 构筑 一 个 人 际 关系 网 络 。 将 这 样 的 网 络 可 视 化 输出 ， 以 明 
确 人 们 彼此 间 的 关系 结构 一 一 例如 寻找 联络 人 (那些 认识 许多 其 他 朋友 的 人 ， 或 是 联系 其 
他 私人 小 圈子 的 人 ) 一 一 是 一 件 颇 有 意义 的 事情 。 


布局 问题 


The Layout Probiem 


为 了 展示 一 大 群 人 及 其 彼此 间 的 关联 ， 我 们 将 网 络 绘制 成 图 ， 绘 制 时 会 遇 到 一 个 问题 ， 我 
们 应 该 如 何 安置 图 中 的 每 个 人 名 (或 头像 ) YE? 以 图 5-7 中 的 网 络 为 例 。 





图 5-7: 混乱 的 网 络 布局 
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在 本 图 中 ， 我 们 可 以 看 到 Augustus 是 Willy, Violet 和 Miranda 的 朋友 。 但 是 ， 网 络 的 布局 
有 点 杂乱 ,而且 增加 更 多 的 人 会 使 布局 非常 地 混乱 不 堪 。 一 个 更 为 清晰 的 布局 如 图 5-8 所 示 。 





图 5-8: 一 个 清晰 的 网 络 布局 


本 节 我 们 将 考虑 如 何 运 用 优化 算法 来 构建 更 好 的 而 非 杂 乱 无 章 的 网 络 图 。 首 先 ， 我 们 新 建 
一 个 名 为 socialnerworkpy 的 文件 ， 并 加 入 一 些 事实 数据 ， 这 些 数据 代表 着 社会 网 络 的 某 一 
个 小 部 分 : 


import math 


people=('Charlie', 'Augustus', 'Veruca', 'Violet', 'Mike', 'Joe', 'Willy', 'Miranda'] 


links=[('Augustus', ‘Willy'), 
('Mike', ‘Joe'), 
('Miranda', 'Mike'), 
{'Violet', ‘Augustus'), 
(‘Miranda', '‘Willy'), 
('Charlie', ‘Mike'), 
('Veruca', ‘Joe'), 
('Miranda‘', ‘Augustus'), 
(‘Willy', Augustus’). 
('Joe', 'Charlie'), 
(‘Veruca', ‘Augustus'), 
('Miranda', ‘Joe')) 


此 处 ， 我 们 的 目标 是 要 建立 一 个 程序 ， 令 其 能 够 读 取 一 组 有 关于 谁 是 谁 的 朋友 的 事实 数据 ， 
并 生成 一 个 易于 理解 的 网 络 图 。 要 完成 这 项 工作 ， 通 常 须要 借助 于 质点 弹 筑 算 法 (mass- 
and-spring algorithm)。 这 一 算法 是 从 物理 学 中 建 模 而 来 的 : 各 结 点 彼此 向 对 方 施 以 推力 并 
试图 分 离 ， 而 结 点 间 的 连接 则 试图 将 关联 结 点 彼此 拉 近 。 如 此 一 来 ， 网 络 便 会 逐渐 呈现 出 
这 样 一 个 布局 : 未 关联 的 结 点 被 推 离 ， 而 关联 的 结 点 则 被 彼此 拉 近 一 一 却 又 不 会 靠 得 很 拢 。 


遗憾 的 是 ， 质 点 弹簧 算法 无 法 避免 交叉 线 。 这 使 得 我 们 很 难 在 一 个 拥有 大 量 连接 的 网 络 中 
观察 结 点 的 关联 情况 ， 因 为 追踪 彼此 交叉 的 连 线 是 颇具 难度 的 。 不 过 ， 假 如 使 用 优化 算法 
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来 构建 布局 的 话 ， 那 么 我 们 只 须要 确定 一 个 成 本 函数 ， 并 尝试 令 它 的 返回 值 尽 可 能 地 小 。 
在 本 例 中 ， 一 个 值得 一 试 的 成 本 函数 是 计算 彼此 交叉 的 连 线 数 。 


计算 交叉 线 


Counting Crossed Lines 


为 了 能 够 使 用 早先 定义 过 的 那些 优化 函数 ， 我 们 须要 将 题解 表示 为 一 个 数值 序列 。 所 幸 的 
是 ， 将 这 一 特定 问题 表示 成 一 个 数值 序列 是 非常 容易 的 一 一 每 个 结 点 都 有 x 和 y 坐标 ， 因 
此 我 们 可 以 将 所 有 结 点 的 坐标 放 入 一 个 长 长 的 列表 中 : 


sol=[120,200,250,125 ... 
在 上 例 中 ，Charlie 位 于 (120,200) ，Augustus 位 于 (250,125) ， 凡 此 种 种 ， 不 一 而 足 。 


随后 ， 新 的 成 本 函数 只 须 对 彼此 交叉 的 连 线 进行 计数 即 可 。 有 关 两 线 交 叉 的 公式 出 处 ， 超 
越 了 本 章 讨论 的 范围 ,不 过 其 基本 思路 就 是 计算 线条 的 “分 数值 ”( 此 处 每 条 线 都 是 “ 交 又 ” 
的 )。 如 果 两 条 线 的 分 数值 介 于 0 (表示 线 的 一 端 ) 和 1 (表示 线 的 另 一 端 ) 之 间 ， 则 它们 
彼此 交叉 。 反 之 ， 则 不 交叉 。 


该 函数 遍历 每 一 对 连 线 ， 并 利用 连 线 端 点 的 当前 坐标 来 判定 它们 是 否 交 叉 。 如 果 交 叉 ， 则 
总 分 加 1。 请 将 crosscount 加 入 socialnetwork.py: 


def crosscount(v): 


# 将 数字 序列 转换 成 一 个 Person: (x,y) 的 字典 
loc=dict ([ (people[i], (v[i*2],v[i*2+1])) for i in range(0,len(people))]) 
total=0 


# 遍历 每 一 对 连 线 
for i in range(len(links)): 
for j in range(it+l,len(links)): 


# 获取 坐标 位 置 

(xl, yl), (x2, y2)=loc[(links[i] (0)),loc[{links[i) [1] ] 
(x3,y3), (x4, y4)=loc[links[j] [0]],loc[links[j])[1]] 
den=(y4-y3) * (x2-x1) - (x4-x3) * (y2-y1) 


# 如 果 两 线 平 行 ， 则 den==0 


if den==0: continue 


# 否则 ，ua 与 ub 就 是 两 条 交叉 线 的 分 数值 
ua= ( (X4-X3) * (yl-y3) - (y4-y3) * (x1-x3)) /den 
ub={ (x2-x1) * (yl-y3) - (y2-yl) * (x1-x3) ) /den 
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# 如 果 两 条 线 的 分 数值 介 于 0 和 1 之 间 ， 则 两 线 彼此 交叉 
if ua>0 and ua<l and ub>0 and ub<l: 
total+=1 
return total 


上 述 搜索 算法 的 定义 域 就 是 每 组 坐标 的 域 值 范围 。 举 例 而 言 ， 假 设 我 们 将 网 络 绘制 于 
400*400 像素 的 图 中 ， 则 为 了 留 出 一 定 的 页 边 , 定义 域 可 以 稍 小 于 该 范围 值 。 请 将 下 列 代码 
行 加 入 socialnetwork. py 的 末尾 处 : 


domain=[ (10,370) ]* (len (people) *2) 


AE, 我们 可 以 尝试 利用 前 述 的 优化 算法 ， 以 寻找 极 少 有 连 线 交 又 情况 的 题解 了。 请 将 
socialnetwork. py 导入 你 的 Python 会 话 中 ， 并 尝试 几 种 优化 算法 ; 

>>> import socialnetwork 

>>> import optimization 

>>> sol=optimization. randomoptimi ze (socialnetwork . domain, socialnetwork .crosscount) 

>>> socialnetwork.crosscount (sol) 

12 

>>> sol=optimization.annealingoptimize(socialnetwork.domain, 

socialnetwork.crosscount, step=50,cool=0.99) 

>>> socialnetwork.crosscount (sol) 

1 

>>> sol 

[324, 190, 241, 329, 298, 237, 117, 181, 88, 106, 56, 10, 296, 370, 11, 312) 


利用 模拟 退火 算法 有 可 能 会 找到 极 少 有 连 线 交 又 情况 的 题解 ， 但 是 返回 的 结果 却 是 难以 理 
解 的 坐标 序列 。 下 一 节 中 ， 我 们 将 向 大 家 展示 如 何 编写 程序 来 自动 绘制 网 络 。 


绘制 网 络 


ry phe RPA n ` 
Drawing the Network 


绘制 网 络 须要 用 到 第 3 章 中 曾经 使 用 过 的 Python Imaging Library。 如 果 还 没有 安装 该 库 ， 
请 参考 附录 A， 按 其 指示 获取 该 库 的 最 新 版 本 ， 并 将 之 安装 到 你 的 Python 实例 中 。 


绘制 网 络 的 代码 非常 简单 易 懂 。 全 部 代码 要 做 的 工作 包括 : 建立 一 个 image 对象， 绘制 介 
于 不 同人 之 间 的 连 线 ， 并 为 每 个 人 绘制 相应 的 结 点 。 我 们 将 人 名 放 到 最 后 绘制 ， 这 样 就 不 
会 被 连 线 遮盖 了 。 请 将 该 国 数 加 入 socialnetwork py: 
def drawnetwork (sol): 
# 建立 image 对 象 


img=Image.new('RGB', (400,400), (255,255,255) ) 
draw=ImageDraw. Draw (imq) 


E 建立 标示 位 置信 息 的 字典 
pos=dict ([ (people [i], (sol[i*2],sol[i*2+1])) for i in range (0, len (people)}]} 
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# 绘制 连 线 
for (a,b) in links: 
Graw.line({(pos[a],pos[b)),  £ill=(255,0,0)) 


# 绘制 代表 人 的 结 点 
for n,p in pos.items(): 
draw.text(p,n, (0,0,0)) 
img. show () 
要 在 你 自己 的 Python 会 话 中 执行 本 函数 ， 只 须 重新 载 入 模块， 调用 该 函数 ， 并 传人 你 的 题 
AREN EJ : 


>>> reload(socialnetwork) 
>>> drawnetwork(sol) 


图 S-9 给 出 了 一 种 可 能 的 优化 结果 。 





5-9: 由 无 交叉 连 线 (no-crossed-lines) 优化 算法 形成 的 布局 


当然 ， 你 的 题解 可 能 会 有 别 于 上 述 计 算 结 果 。 有 时 题解 可 能 会 看 起 来 非常 的 古 性 一 一 这 是 
因为 我 们 的 目标 只 是 令 交叉 线 的 数目 最 小 化 ， 成 本 函数 并 没有 排除 诸如 两 线 夹 角 非 常 小 ， 
或 两 结 点 间距 非常 近 这 样 的 布局 情况 。 就 这 一 点 而 言 ， 优 化 算法 就 像 是 一 个 忠实 满足 你 愿 
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望 的 精灵 (angles) 一 样 。 所 以 ， 清 楚 你 到 底 想 要 什么 是 非常 重要 的 。 时 常会 有 题解 满足 原 
本 的 “最 优 ” 条 件 ， 但 却 并 非 是 我 们 想 要 的 结果 。 


如 果 要 对 一 个 两 结 点 放置 太 近 的 题解 进行 “判罚 ”(penalize) ， 最 简单 的 办 法 就 是 计算 两 结 
点 间 的 距离 并 除 以 一 个 预期 的 最 小 距离 。 我 们 可 以 将 如 下 代码 添加 至 crosscount 的 末尾 处 
(return 语句 之 前 ) ， 以 提供 这 一 附加 的 判断 。 
for i in range (len (people)): 
for j in range (i+1, len (people) }: 


# 获得 两 结 点 的 位 置 
(xl,yl), (x2, y2)=loc[people[i]],loc[{people[j]] 


# 计算 两 结 点 的 间距 
dist=math.sqrt (math.pow(x1l-x2,2)+math.pow(yl-y2, 2)) 
# 对 间距 小 于 50 个 像素 的 结 点 进行 判 恒 
if dist<50: 
total+t=(1.0-(dist/50.0)) 


当 一 对 结 点 的 彼此 间距 小 于 50 个 像素 时 ， 上 述 代码 将 产生 一 个 比 原 来 更 高 的 成 本 值 ， 该 什 
与 其 距离 的 远近 成 比例 。 如 果 两 结 点 恰好 位 置 相 重 ， 则 其 值 为 1。 再 次 执行 优化 算法 ， 看 看 
能 否 形 成 一 个 分 布 较为 开阔 的 布局 。 


其 他 可 能 的 应 用 场合 


本 章 向 大 家 展示 了 优化 算法 的 三 种 截然 不 同 的 应 用 ， 但 这 只 是 众多 可 能 的 应 用 场合 中 很 小 
的 一 部 分 。 正 如 本 章 一 再 重申 的 ， 关 键 步骤 在 于 确定 题解 的 表示 法 及 成 本 函数 。 如 果 能 做 
到 这 些 ， 那 么 我 们 就 有 机 会 利用 优化 算法 来 对 问题 进行 求解 。 


关于 优化 ， 有 这 样 一 项 应 用 也 许 是 值得 关注 的 : 或 许 我 们 会 希望 对 一 群 人 进行 分 组 ， 让 组 
员 的 技能 得 以 均匀 分 布 。 在 一 个 小 型 的 竞赛 活动 中 ， 我 们 可 能 希望 将 参赛 者 进行 组 队 ， 使 
每 个 队 都 能 在 体育 、 历 史 、 文 学 ， 以 及 电视 方面 具备 足够 的 知识 。 另 一 种 可 能 的 应 用 场合 
是 根据 人 们 的 技能 搭配 情况 ， 为 项 目 组 分 派 任务 。 优 化 算法 可 以 找到 任务 分 解 的 最 佳 方案 ， 
从 而 使 任务 列表 得 以 在 最 短 时 间 内 完成 。 


假设 有 一 个 标注 了 关键 字 的 长 长 的 网 站 列表 ， 根 据 用 户 提供 的 关键 字 来 寻找 一 组 最 佳 网 站 
可 能 也 是 一 件 很 有 意义 的 事情 。 最 佳 网 站 中 所 包含 的 网 站 ， 并 不 需要 具备 大 量 彼此 公有 的 
关键 字 ， 而 是 要 尽 可 能 多 地 体现 由 用 户 提供 的 关键 字 。 
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练习 


Y į Fi l 


w 


Un 


. 组 团 旅 行 的 成 本 函数 ”请 以 飞机 上 每 分 钟 0.50 美元 的 成 本 将 总 飞行 时 间 计 入 成 本 。 然 后 


再 尝试 追加 20 美元 的 罚款 ， 以 确保 任何 人 都 能 在 上 午 8 点 之 前 抵达 机 场 。 


. 退火 算法 的 初始 值 ” 模 拟 退 火 算法 的 结果 很 大 程度 上 取决 于 其 初始 值 。 请 构造 一 个 新 的 


优化 函数 ， 用 多 个 初始 值 来 模拟 退火 ， 并 返回 最 优 解 。 


,遗传 优化 算法 的 结束 条 件 “本章 中 的 函数 是 以 固定 迭代 次 数 来 进行 遗传 优化 的 。 请 改变 


算法 的 结束 条 件 ， 使 其 在 经 过 10 次 返 代 之 后 ， 任 一 最 优 解 都 没有 任何 改善 时 ， 方 才 结 
束 。 


. 往返 定价 ”此 前 通过 Kayak 获取 航班 数据 的 函数 查找 的 仅 是 单程 航班 。 购 买 往返 机 票 的 


价格 可 能 会 更 加 便宜 。 请 修改 代码 取得 往返 票 价 ， 并 修改 成 本 函数 ， 令 其 针对 某 一 特定 
往返 航班 进行 票 价 查 询 ， 而 不 是 只 对 单程 票 价 进行 求 和 运算 。 


, FEAR ”假设 并 非 要 求学 生 列 出 对 宿舍 的 偏好 ， 而 是 令 其 表达 对 同 住 舍 友 的 偏好 。 aS 


么 你 将 如 何 表达 学 生 组 对 的 结果 呢 ? RAS eB HG a EE? 


. 连 线 夹 角 的 判断 ”请 在 连接 同一 人 的 两 线 夹 角 非 常 小 的 时 候 ， 为 网 络 布局 算法 的 成 本 函 


数 再 增加 一 项 成 本 。( 提 示 : 可 以 使 用 向 量 的 又 乘 。) 
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第 6 章 


”文档 过 滤 


Decsument Filtering 


本 章 将 向 大 家 演示 如 何 依据 内 容 来 对 文档 进行 分 类 。 文 档 分 类 是 机 器 智能 (machine 
intelligence) 的 一 个 应 用 ,很 有 实用 价值 ， 而 且 现 在 越 来 越 普及 。 关 于 文档 过 滤 ， 最 有 价值 
也 最 为 人 们 所 熟知 的 应 用 ， 恐 怕 要 数 垃圾 邮件 过 诺 了 。 随 着 电子 邮件 的 广泛 普及 与 邮件 发 
送 的 超 低 成 本 ， 人 们 面临 的 一 大 问题 是 : 任何 人 的 邮件 地 址 只 要 落 入 不 法 者 之 手 ， 便 有 可 
能 会 收 到 未 经 许可 的 商业 邮件 ， 致 使 我 们 无 法 阅读 到 真正 感 兴趣 的 邮件 。 


当然 ， 垃 圾 信息 的 问题 并 非 仅 限于 电子 邮件 。 随 着 时 间 的 推移 ，Web 网 站 已 经 越 来 越 具有 
互动 的 特征 了 ， 它 们 或 向 用 户 令 给 误 吡 55 践 请 求 用 户 提供 原创 内 容 ， 这 些 行为 都 会 伴 以 垃 
圾 信息 侵扰 的 问题 。 例 如 像 A Foups 和 Usenet 这 样 的 公共 留言 板 ， 就 长 期 遭受 着 垃圾 
帖 的 侵扰 。 这 些 帖子 或 与 害 Èri EHF ~ 以 忽 售 可 疑 产 品 为 目的 。 现 在 ， 

博客 和 维基 也 遭遇 到 了 同 忆 Pin. sanee 许 普通 大 众 一 起 参与 的 应 用 系 


统 时 ， 就 始终 应 该 考虑 应 对 驳 沼 称 入 的 策略 ， 


ttt 开 这 些 逢 注 条 以 解决 更 为 一 般 性 的 问题 ， 
即 学 习 并 鉴别 文档 所 属 的 乡 坪 \ 内 此 我 和 Ts 用 等 $. 些 相 比 垃圾 信息 而 言 不 那么 
RAER, H Keme. gi TE É b HEME Fi H AAB LERI Ho LR HE 
APERIT PEREAS EA — ENET BERIA he. ne E 的 邮件 ， 并 将 其 自动 转 
发 给 6 最 适合 的 人 员 进 上 Re. ieee A ,会 为 大 如 何 将 来 自 某 一 RSS 订 
阅 源 的 内 容 项 自动 亲 到 不 同 的 分 类 之 中 。 1 A \ 




























cL 


早期 尝试 对 垃圾 信和 Lt siemens we Yg J classifiers), ， 使 用 
时 会 有 人 事先 设计 好 时 组 规则 、 FL 典型 的 规则 包括 ， 
英文 大 写字 全 的 过 度 使 用 与 5 品 相关 的 靖 呈 或 是 过 ve j HTML 用 色 等 。 基 于 
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规则 的 分 类 器 ， 其 问题 很 快 就 显现 了 出 来 一 一 垃圾 信息 制造 者 在 知道 了 所 有 规则 以 后 ， 为 
了 绕 开 过 滤器 ， 其 行为 就 会 变 得 更 加 隐蔽 ， 而 且 人 们 会 发 现 ， 如 果 他 们 的 父母 不 知道 关闭 
大 写 锁定 键 (Caps Lock), 一 些 正常 的 邮件 也 会 被 归 类 成 垃圾 邮件 。 


基于 规则 的 过 滤器 还 有 另 一 个 问题 一 一 是 否 被 当 作 垃圾 信息 很 大 程度 上 因 其 所 面 对 的 读者 
和 张贴 位 置 的 不 同 而 不 同 。 对 于 某 一 位 特定 用 户 、 公 告 留言 板 或 维基 而 言 ， 那 些 可 以 用 来 
明确 指示 是 否 垃圾 信息 的 关键 词 ， 在 其 他 场合 下 可 能 就 会 变 得 相当 正常 。 为 了 解决 这 一 问 
题 ， 本 章 所 要 考查 的 程序 会 在 开始 阶段 和 逐渐 收 到 更 多 消息 之 后 ， 根 据 人 们 提供 给 它 的 有 
关 哪 些 是 垃圾 邮件 ， 哪 些 不 是 垃圾 邮件 的 信息 ， 不 断 地 进行 学 习 。 通 过 这 样 的 方式 ， 我 们 
可 以 分 别 为 不 同 的 用 户 、 群 组 或 网 站 建立 起 各 自 的 应 用 实例 和 数据 集 ， 它 们 对 垃圾 信息 的 
界定 将 逐步 形成 自己 的 观点 。 


文档 和 单词 


即将 构造 的 分 类 器 须要 利用 某 些 特征 来 对 不 同 的 内 容 项 进行 分 类 。 所 谓 特征 ， 是 指 任何 可 
以 用 来 判断 内 容 中 具备 或 缺失 的 东西 。 当 考虑 对 文档 进行 分 类 时 ， 所 谓 的 内 容 即 是 文档 ， 
而 特征 则 是 文档 中 的 单词 。 当 将 单词 作为 特征 时 ， 其 假设 是 : 某 些 单词 相对 而 言 更 有 可 能 
会 出 现 于 垃圾 信息 中 。 这 一 假设 是 大 多 数 垃圾 信息 过 滤器 背后 所 依赖 的 基本 前 提 。 不 过 ， 
特征 未 必 一 定 是 一 个 个 单词 ， 它 们 也 可 以 是 词组 或 短语 ， 或 者 任何 可 以 归 为 文档 中 缺失 或 
存在 的 其 他 东西 。 


请 新 建 一 个 文件 ， 取 名 docciass.py， 并 在 其 中 加 入 一 个 名 为 getwords 的 函数 ， 以 从 文本 中 
提取 特征 : 


import re 
import math 


def getwords (doc): 
splitter=re.compile('\\W*') 
# 根据 非 字母 字符 进行 单词 拆 分 
words=[{s,lower({) for s in splitter.split{doc) 
if len(s)>2 and len(s)<20] 


# 只 返回 一 组 不 重复 的 单词 


return dict([({w,1) for w in words] ) 


该 函数 以 任何 非 字母 类 字符 为 分 隔 符 对 文本 进行 划分 ， 将 文本 拆 分 成 了 一 个 个 单词 。 这 一 
过 程 只 留 下 了 真正 的 单词 ， 并 将 这 些 单词 全 都 转换 成 了 小 写 形式 。 


决定 采用 哪些 特征 颇具 技巧 性 ， 也 十 分 重要 。 特 征 必须 具备 足够 的 普遍 性 ， 即 时 常 出 现 ， 
但 又 不 能 普遍 到 每 一 篇 文档 里 都 能 找到 。 理 论 上 ， 整 篇 文档 的 文本 都 可 以 作为 特征 ， 但 是 
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除非 我 们 一 再 收 到 内 容 完全 相同 的 邮件 ， 否 则 这 样 的 特征 几乎 肯定 是 毫 无 价值 的 。 在 另 一 
种 极端 情况 下 ， 特 征 也 可 以 是 单个 字符 。 但 是 由 于 每 一 封 电子 邮件 中 都 有 可 能 会 出 现 所 有 
这 些 字符 ， 因 此 要 想 利用 这 样 的 特征 将 希望 看 到 和 不 希望 看 到 的 文档 区 分 开 来 是 很 困难 的 。 
即便 选择 使 用 单词 作为 特征 ， 也 依然 还 是 会 带 来 一 些 问题 ， 包 括 如 何 正 确 划分 单词 ， 哪 些 
标点 符号 应 该 被 纳入 单词 ， 以 及 是 否 应 该 包含 头 信息 (header information) 等 。 


在 根据 特征 进行 判断 时 还 有 一 点 须要 考虑 ， 那 就 是 如 何 才能 更 好 地 利用 特征 将 一 组 文档 划 
归 到 目标 分 类 中 去 。 例 如 ， 前述 getwords 函数 的 代码 通过 将 单词 转换 为 小 写 形式 ， 从 而 减 
少 了 特征 的 总 数 。 这 意味 着 ， 程 序 会 将 位 于 句 首 以 大 写字 母 开头 的 单词 与 位 于 句 中 全 小 写 
形式 的 单词 视 为 相同 一 一 这 样 做 非常 好 ， 因 为 具有 不 同 大 小 写 形式 的 同一 单词 往往 代表 的 
含义 是 相同 的 。 然 而 ， 上 述 国 数 完全 没有 考虑 到 被 用 于 许多 垃圾 信息 中 的 “SHOUTING A 
H” (PETE 1)， 而 这 一 点 可 能 对 区 分 垃圾 邮件 和 非 垃 圾 邮件 是 至 关 重 要 的 。 除 此 以 外 ， 如 果 
超过 半数 以 上 的 单词 都 是 大 写 时 ， 那 就 说 明 必 定 会 有 其 他 的 特征 存在 。 


正如 你 所 看 到 的 ， 在 选择 特征 集 时 须要 做 大 量 的 权衡 ， 而 且 还 要 不 断 地 进行 调整 。 不 过 眼 
下 ,可 以 暂且 使 用 这 个 简单 的 getwords 函数 ， 在 本 章 的 后 续 部 分 ， 我 们 还 将 了 解 到 有 关 特 
征 提取 的 一 些 改进 方法 。 
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本 章 中 讨论 的 分 类 器 可 以 通过 接受 训练 的 方式 来 学 习 如 何 对 文档 进行 分 类 。 本 书 中 的 许多 
其 他 算法 ， 例 如 我 们 在 第 4 章 中 见 到 过 的 神经 网 络 ， 都 是 通过 读 取 正 确 答案 的 样本 进行 学 
习 的 。 如 果 分 类 器 掌握 的 文档 及 其 正确 分 类 的 样本 越 多 ， 其 预测 的 效果 也 就 越 好 。 人 们 专 
门 设计 分 类 器 ， 其 目的 也 就 在 于 此 ， 即 : 从 极为 不 确定 的 状态 开始 ， 随 着 分 类 器 不 断 了 解 
到 哪些 特征 对 于 分 类 而 言 更 为 重要 ， 其 确定 性 也 在 逐渐 地 增加 。 


我 们 要 做 的 第 一 件 事情 ， 是 编写 一 个 代表 分 类 器 的 类 。 这 个 类 将 对 分 类 器 到 目前 为 止 所 掌 
担 的 信息 进行 封装 。 以 这 样 的 方式 构造 Python 模块 的 好 处 在 于 , 我 们 可 以 针对 不 同 的 用 户 、 
群 组 或 查询 ， 建 立 起 多 个 分 类 器 实例 ， 并 分 别 对 它们 加 以 训练 ， 以 响应 特定 群 组 的 需求 。 
请 在 docclass. py 中 新 建 一 个 名 为 classifier 的 类 : 
class classifier: 
def _ init _(self,getfeatures, filename=None) : 


# 统计 特征 /分 类 组 合 的 数量 
self.fc={} 


# 统计 每 个 分 类 中 的 文档 数量 
self.cc={} 
self.getfeatures=getfeatures 


译注 1: 此 处 是 指 许多 垃圾 邮件 中 所 采用 的 将 单词 以 大 写 形式 书写 的 手段 ， 
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该 类 中 有 3 个 实例 变量 ， 它 们 分 别 是 fc、cc 和 getfeatures。 变 量 fc 将 记录 位 于 各 分 类 
中 的 不 同 特征 的 数量 。 例 如 : 


{*python': {'bad': 0, 'good': 6}, ‘the': {'bad': 3, "good': 3}} 


上 述 示例 表明 , 单词 “the” 在 被 划 归 “bad” 类 的 文档 中 已 经 出 现 了 3 次 , 而 在 被 划 归 “good 
类 的 文档 中 也 出 现 了 3 次 。 而 单词 “Python” 却 只 在 “good” 类 的 文档 中 出 现 过 。 


变量 cc 是 一 个 记录 各 分 类 被 使 用 次 数 的 字典 。 这 一 信息 是 我 们 稍 后 即将 讨论 的 概率 计算 所 
需 的 。 最 后 一 个 实例 变量 ，getfeatures， 对 应 于 一 个 函数 ， 其 作用 是 从 即将 被 归 类 的 内 
容 项 中 提取 出 特征 来 一 一 在 本 例 中 ， 就 是 我 们 刚才 定义 过 的 getwords AR, 


类 中 定义 的 方法 不 会 直接 引用 这 些 字典 ， 因 为 这 会 有 碍 于 将 训练 数据 存 人 文件 或 数据 库 的 
潜在 选择 。 请 加 入 下 列 辅助 函数 ， 以 实现 计数 值 的 增加 和 获取 : 


# 增加 对 特征 /分 类 组 合 的 计数 值 

def incf(self,f,cat): 
self.fc.setdefault (f,{}) 
self.fc[f].setdefault (cat, 0) 
self.fe(f] [cat]+=1 


# 增加 对 某 一 分 类 的 计数 值 

def incc(self,cat): 
self.cc.setdefault (cat, 0) 
self.cc[cat]+=1 


E 革 一 特征 出 现 于 某 一 分 类 中 的 次 数 
def fcount (self,f,cat): 
if f in self.fc and cat in self.fc[f]: 
return float(self.fc[f] [cat]) 
return 0.0 


*# 属于 某 一 分 类 的 内 容 项 数量 
def catcount (Self,cat) : 
if cat in self.cc: 
return float (self.cc[cat]) 
return 0 


# 所 有 内 容 项 的 数量 
def totalcount (self): 
return sum(self.cc.values()) 


# 所 有 分 类 的 列表 
def categories(self): 
return self.cc.keys() 
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train 方法 接受 一 个 内 容 项 (本 例 中 为 文档 ) 和 一 个 分 类 作为 参数 。 它 利用 getfeatures 
函数 ， 将 内 容 项 拆 分 为 彼此 独立 的 各 个 特征 。 然 后 调用 incf 函数 ， 针 对 该 分 类 为 每 个 特征 
增加 计数 值 。 最 后 ， 函 数 会 增加 针对 该 分 类 的 总 计数 值 : 


def train(self,item,cat): 
features=self.getfeatures (item) 
# 针对 该 分 类 为 每 个 特征 增加 计数 值 
for f in features: 
self.incf(f,cat) 


# 增加 针对 该 分 类 的 计数 值 


self.incc (cat) 


请 启动 一 个 新 的 Python 会 话 ， 并 引入 该 模块 ， 我 们 可 以 来 检查 一 下 这 个 类 是 否 可 用 : 


$ python 

>>> import docclass 

>>> cl=docclass.classifier (docclass.getwords) 

>>> el.train('the quick brown fox jumps over the lazy dog', 'good') 
>>> cl.train('make quick money in the online casino', 'bad') 

>>> cl.fcount('quick', 'good') 

1.0 

>>> cl. fcount('quick', ‘bad') 

1.0 


此 处 ， 我 们 用 一 个 函数 将 训练 用 的 样本 数据 导入 到 分 类 器 中 是 很 有 价值 的 ， 因 为 这 样 就 无 
须 在 每 次 创建 分 类 器 的 时 候 再 对 其 进行 手工 训练 了 。 请 将 该 函数 加 入 docclass.py 的 开始 处 : 
def sampletrain(cl): 
cl.train('Nobody owns the water.', 'good') 
cl.train('the quick rabbit jumps fences', 'good') 
cl.train('buy pharmaceuticals now’, 'bad') 


cl.train('make quick money at the online casino’, 'bad') 
cl.train('the quick brown fox jumps', 'good') 


计算 概率 

Calculating Probabilities 

既然 我 们 已 经 对 一 封 电子 邮件 在 每 个 分 类 中 的 出 现 次 数 进行 了 统计 ， 那 么 接 下 来 的 工作 就 
是 要 将 其 转换 成 概率 了 。 所 谓 概率 ， 是 指 一 个 介 于 0 和 1 之 间 的 数字 ， 用 以 指示 某 一 事件 


发 生 的 可 能 性 。 在 本 例 中 ， 可 以 用 一 个 单词 在 一 篇 属于 某 个 分 类 的 文档 中 出 现 的 次 数 ， 除 
以 该 分 类 的 文档 总 数 ， 计 算出 单词 在 分 类 中 出 现 的 概率 。 


请 将 一 个 名 为 fprob 的 方法 加 入 classifier MAP; 


def fprob(self,f,cat): 
if self.catcount(cat)==0: return 0 
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# 特征 在 分 类 中 出 现 的 总 次 数 ， 除 以 分 类 中 包含 内 容 项 的 总 数 


return self.fcount(f,cat)/self.catcount (cat) 


我 们 称 上 述 概率 为 条 件 概率 ， 通 常 记 为 Pr(A | B) ， 读 作 “ 在 给 定 B 的 条 件 下 A 的 概率 。 
在 本 例 中 ， 目 前 我 们 所 求 得 的 值 对 应 于 Pr(word | classification), Bl. 对 于 一 个 给 定 的 分 类 ， 
某 个 单词 出 现 的 概率 。 


可 以 在 你 的 Python 会 话 中 尝试 执行 一 下 该 函数 : 


>>> reload (docclass) 

<module 'docclass' from 'docclass.py'> 

>>> cl=docclass.classifier (docclass.getwords) 
>>> docclass.sampletrain (cl) 

>>> cl. fprob('quick', 'good') 
0.66666666666666663 


从 执行 结果 中 我 们 可 以 看 到 ， 在 三 篇 被 归 类 为 “good ”的 文档 中 ， 有 两 篇 文档 出 现 了 单词 


“quick”, 即 : 一 篇 “good” 分 类 的 文档 中 包含 该 单词 的 概率 为 , Pr(quick | good) = 0.666 (有 
2/3 的 机 会 )。 


从 一 个 合理 的 推测 开始 


Starting with a Reasonable Guess 


fprob 方法 针对 目前 为 止 见 到 过 的 特征 与 分 类 ， 给 出 了 一 个 精确 的 结果 。 但 是 它 有 一 个 小 
小 的 问题 一 一 只 根据 以 往 见 过 的 信息 ， 会 令 其 在 训练 的 初期 阶段 ， 对 那些 极 少 出 现 的 单词 
变 得 异常 敏感 。 在 训练 用 的 样本 数据 中 ， 单 词 “money” 只 在 一 篇 文档 中 出 现 过 ， 并 且 由 于 
这 是 一 则 涉及 赌博 的 广告 , 因此 文档 被 划 归 为 了 “bad” 类 。 由 于 单词 “money” 在 一 篇 “bad” 
类 的 文档 中 出 现 过 ， 而 任何 “good” 类 的 文档 中 都 没有 该 单词 ， 所 以 此 时 利用 fprob 计算 
所 得 的 单词 “money” 在 “good” 分 类 中 出 现 的 概率 为 0。 这样 做 有 一 些 偏激 ,因为 “money” 
可 能 完全 是 一 个 中 性 词 ， 只 是 恰好 先 出 现在 了 一 篇 “bad” 类 的 文档 中 而 已 。 伴 随 着 单词 
越 来 越 多 地 出 现在 同属 于 一 个 分 类 的 文档 中 , 其 对 应 的 概率 值 也 逐渐 接近 于 0, 了 恐怕 这 样 才 
会 更 合理 一 些 。 


为 了 解决 上 述 问 题 ， 在 我 们 手头 掌握 的 有 关 当 前 特征 的 信息 极为 有 限时 ， 我 们 还 须要 根据 
一 个 假设 的 概率 来 作出 判断 。 一 个 推荐 的 初始 值 是 0.5。 我 们 还 须要 确定 为 假设 的 概率 赋 以 
多 大 的 权重 一 一 权重 为 1 代表 假设 概率 的 权重 与 一 个 单词 相当 。 经 过 加 权 的 概率 值 返回 的 
是 一 个 由 getprobability 与 假设 概率 组 成 的 加 权 平 均 。 


在 单词 “money” 的 例子 中 ， 针 对 “money” 的 加 权 概 率 对 于 所 有 分 类 而 言 均 是 从 0.5 开始 
的 。 待 到 在 classifier 训练 期 间接 受 了 一 篇 “bad” 分 类 的 文档 ， 并 且 发 现 “money” 适 合 于 
“bad” 分 类 时 ， 其 针对 “bad” 分 类 的 概率 就 会 变 为 0.75。 这 是 因为 : 


{weight*assumedprob + count*fprob) / (count+weight) 
= (1*1.04+1*0.5)/(1.0 + 1.0) 
= 0.75 
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请 将 weightedprob 方法 加 入 classifier KH; 


def weightedprob(self,f,cat,prf,weight=1.0,ap=0.5): 
# 计算 当前 的 概率 值 
basicprob=prf (f, cat) 


E 统计 特征 在 所 有 分 类 中 出 现 的 次 数 


totals=sum([self.fcount(f,c) for c in self.categories()]) 


# 计算 加 权 平 均 
bp=( (weight*ap)+(totals*basicprob))/ (weight+totals) 
return bp 


现在 我 们 可 以 在 自己 的 Python 会 话 中 尝试 执行 一 下 该 函数 了 。 由 于 新 建 一 个 classifier 类 的 
实例 将 清除 其 已 有 的 训练 数据 ， 因 此 请 重新 加 载 模 块 ， 并 再 次 运行 sampletrain Fèk: 

>>> reload(docclass) 

<module 'docclass' from 'docclass.pyc'> 

>>> cl=edocclass.classifier (docclass.getwords) 

>>> docclass.sampletrain (cl) 

>>> cl.weightedprob('money' , 'good',cl.fprob) 

0.25 

>>> docclass.sampletrain (cl) 

>>> cl.weightedprob ('money' , 'good' ,cl .fprob) 


0.16666666666666666 
正如 我 们 所 看 到 的 ， 随 着 单词 的 概率 从 假设 的 初始 值 开 始 被 逐步 地 “拉动 ”， 重新 运行 
sampletrain 方法 后 使 classifier 对 各 个 单词 的 概率 变 得 更 加 确信 了 。 


选择 0.5 作为 假设 的 概率 初始 值 仅 仅 是 因为 它 介 于 0 和 1 的 正中 间 。 不 过 , 也 有 可 能 我 们 已 
经 掌握 了 更 多 的 背景 信息 ， 从 而 使 假设 更 加 有 据 可 依 ， 这 一 点 即便 对 于 一 个 完全 没有 经 过 
训练 的 分 类 器 而 言 ， 也 是 有 可 能 的 。 例 如 ， 一 个 准备 对 垃圾 信息 过 滤器 进行 训练 的 人 ， 可 
以 利用 他 人 训练 过 的 垃圾 过 主 器 ， 将 其 所 得 的 概率 值 作为 假设 的 概率 初始 值 。 使 用 者 还 可 
以 专门 为 自己 设计 个 性 化 的 垃圾 信息 过 滤器 ， 只 是 不 管 怎样 ， 对 于 一 个 过 滤器 而 言 ， 它 最 
好 应 该 有 能 力 处 理 极 少 会 出 现 的 单词 。 


朴素 分 类 器 
一 旦 我 们 求 出 了 指定 单词 在 一 篇 属于 某 个 分 类 的 文档 中 出 现 的 概率 ， 就 需要 有 一 种 方法 将 
各 个 单词 的 概率 进行 组 合 ， 从 而 得 出 整 篇 文档 属于 该 分 类 的 概率 。 本 章 将 分 别 考 查 两 种 不 
同 的 分 类 方法 。 这 两 种 方法 在 大 多 数 场合 下 都 是 可 以 使 用 的 ， 只 不 过 它们 在 面 对 特 定 任务 
时 ， 在 算法 的 性 能 级 别 上 有 些微 的 不 同 。 本 节 中 我 们 要 讨论 的 分 类 器 被 称 为 朴素 贝 叶 斯 分 
类 器 。 
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这 种 方法 之 所 以 被 冠 以 朴素 二 字 ， 是 因为 它 假 设 将 要 被 组 合 的 各 个 概率 是 彼此 独立 的 。 即 ， 
一 个 单词 在 属于 某 个 指定 分 类 的 文档 中 出 现 的 概率 ， 与 其 他 单词 出 现 于 该 分 类 的 概率 是 不 
相关 的 。 事实 上 这 个 假设 是 不 成 立 的 ， 因为 你 也 许 会 发 现 , 与 有 关 Python 编程 的 文档 相 比 ， 
包含 单词 “casino” 的 文档 更 有 可 能 包含 单词 “money”。 


这 意味 着 ， 我 们 无 法 将 采用 朴素 贝 叶 斯 分 类 器 所 求 得 的 结果 实际 用 作 一 篇 文档 属于 某 个 分 
类 的 概率 ， 因 为 这 种 独立 性 的 假设 会 使 其 得 到 错误 的 结果 。 不 过 ， 我 们 还 是 可 以 对 各 个 分 
类 的 计算 结果 进行 比较 ， 然 后 再 看 哪个 分 类 的 概率 最 大 。 在 现实 中 ， 若 不 考虑 假设 的 潜在 
缺陷 ， 朴 素 贝 叶 斯 分 类 器 将 被 证 明 是 一 种 非常 有 效 的 文档 分 类 方法 。 


SALA 


为 了 使 用 朴素 贝 叶 斯 分 类 器 ， 首 先 我 们 须要 确定 整 篇 文档 属于 给 定 分 类 的 概率 。 正 如 此 前 
讨论 过 的 ， 我 们 须要 假设 概率 的 彼此 独立 性 ， 即 : 可 以 通过 将 所 有 的 概率 相 乘 ， 计 算出 总 
的 概率 值 。 


例如 ， 假 设 我 们 已 经 注意 到 有 20% 的 “bad” 类 文档 中 出 现 了 单词 “Python” 一 一 Pr(Python 
| Bad) = 0.2 一 一 同时 有 80% 的 文档 出 现 了 单词 “casino”(PrfCasino | Bad) = 0.8)。 那 么 ， 预 
期 两 个 单词 出 现 于 同一 篇 “bad” 类 文档 中 的 独立 概率 为 一 一 Pr(Python & Casino | Bad) 一 一 
0.8 x 0.2 = 0.16。 从 中 我 们 会 发 现 ， 计 算 整 篇 文档 的 概率 ， 只 须 将 所 有 出 现 与 某 篇 文档 中 的 
各 单词 的 概率 相 乘 即 可 。 


请 在 docclass.py 中 ， 新 建 一 个 classifier 的 子 类 ， 取 名 naivebayes， 并 为 其 添加 一 个 
docprob 方法 ， 该 方法 的 作用 是 提取 特征 〈 单 词 ) 并 将 所 有 单词 的 概率 值 相 乘 以 求 出 整体 
概率 ; 

class naivebayes (classifier): 


def docprob(self,item,cat): 
features=self.getfeatures (item) 





E 将 所 有 特征 的 概率 相 来 

prl 

for f in features: p*=self.weightedprob(f,cat,self.fprob) 
return p 


现在 我 们 已 经 知道 了 如 何 计算 Pr(Document | Category)， 不 过 只 做 到 这 一 步 还 不 行 。 为 了 对 
文档 进行 分 类 ， 我们 真正 需要 的 是 Pr(Category | Document)。 换 言 之 ， 就 是 对 于 一 篇 给 定 的 
文档 ， 它 属于 某 个 分 类 的 概率 是 多 少 ? 所 幸 的 是 ， 一 位 名 叫 Thomas Bayes 的 英国 数学 家 早 
在 大 约 250 年 前 就 已 经 找到 了 解决 这 一 问题 的 办 法 。 
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贝 叶 斯 定理 简介 


A Quick Introduction to Bayes’ Theorem 
贝 叶 斯 定理 是 一 种 对 条 件 概率 进行 调换 求解 (flipping around) (译注 2) 的 方法 。 它 通常 被 
写作 : 


Pr(A | B) = Pr(B | A) x Pr(A)/Pr(B) 
在 本 例 中 ’ 即 为 ; 
Pr(Category | Document) = Pr(Document | Category) x Pr(Category) / Pr(Document) 


Pr(Document | Category) 的 计算 方法 上 一 节 已 经 介绍 过 了 ， 但 是 等 式 中 的 另 两 个 值 如 何 计算 
昵 ?Pr(Category) 是 随机 选择 一 篇 文档 属于 该 分 类 的 概率 ， 因 此 就 是 属于 该 分 类 的 文档 数 除 
以 文档 的 总 数 。 


至 于 Pr(Document)， 我 们 也 可 以 计算 它 ， 但 这 将 会 是 一 项 不 必要 的 工作 。 请 记 住 ， 我 们 不 
会 将 这 一 计算 结果 当 作 真实 的 概率 值 。 相 反 ， 我 们 会 分 别 计算 每 个 分 类 的 概率 ， 然 后 对 所 
有 的 计算 结果 进行 比较 。 由 于 不 论 计算 的 是 哪个 分 类 ，Pr(Document) 的 值 都 是 一 样 的 ， 其 
对 结果 所 产生 的 影响 也 完全 是 一 样 的 ， 因 此 我 们 完全 可 以 忽略 这 一 项 。 


prob 方法 用 于 计算 分 类 的 概率 ， 并 返回 Pr(Document | Category)45 Pr(Category) 的 乘积 。 请 
将 该 方法 加 入 naivebayes 类 中 


def prob (self,item,cat): 
catprob=self.catcount (cat)/self.totalcount () 
docprob=self.docprob (item, cat) 
return docprob*catprob 


请 在 Python 的 执行 环境 中 尝试 一 下 该 函数 ， 看 看 针对 不 同 的 字符 串 和 分 类 ， 概 率 值 是 如 何 
变化 的 : 


>>> reload (docclass) 

<module 'docclass' from 'docclass.pyc'> 

>>> cl=docclass.naivebayes (docclass .getwords) 
>>> docclass.sampletrain(cl) 

>>> cl.prob('quick rabbit’, 'good') 
0.15624999999999997 

>>> cl.prob('quick rabbit', 'bad') 
0.050000000000000003 


根据 训练 的 数据 ， 我 们 认为 相 比 于 “bad” 分 类 而 言 ， 短 语 “quick rabbit” WEAF “good” 
分 类 。 


译注 2; 根据 后 面 的 公式 ， 此 处 flipping around 的 意思 是 通过 P(B|A) 来 求 P(41B), 而 BA 对 A|B 
而 言 ， 三 者 的 相对 位 置 正 好 调 了 过 来 。 
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构造 朴素 贝 叶 斯 分 类 器 的 最 后 一 个 步骤 是 实际 判定 某 个 内 容 项 所 属 的 分 类 。 此 处 最 简单 的 
方法 ， 是 计算 被 考查 内 容 在 每 个 不 同 分 类 中 的 概率 ， 然 后 选择 概率 最 大 的 分 类 。 如 果 我 们 
只 是 在 试图 判断 “将 内 容 放 到 哪里 最 合适 ”的 问题 ， 那 么 这 不 失 为 一 种 可 行 的 策略 ， 但 是 
在 许多 应 用 中 ， 我 们 无 法 将 各 个 分 类 同等 看 待 ， 而 且 在 一 些 应 用 中 ， 对 于 分 类 器 而 言 ， 承 
认 不 知道 答案 ， 要 好 过 判断 答案 就 是 概率 值 稍 大 一 些 的 分 类 。 


在 垃圾 信息 过 滤 的 例子 中 ， 避 免 将 普通 邮件 错 当成 垃圾 邮件 要 比 截获 每 一 封 垃 圾 邮件 更 为 
重要 。 收 件 箱 中 偶尔 收 到 几 封 垃 圾 邮件 还 是 可 以 容忍 的 ， 但 是 一 封 重要 的 邮件 则 有 可 能 会 
因为 自动 过 滤 到 废 件 箱 而 被 完全 忽视 。 假 如 我 们 必须 在 废 件 箱 中 找 回 自己 的 重要 邮件 ， 那 
就 真 的 没 必要 再 使 用 垃圾 信息 过 滤器 了 。 


为 了 解决 这 一 问题 ， 我 们 可 以 为 每 个 分 类 定义 一 个 最 小 赣 值 。 对 于 一 封 将 要 被 划 归 到 某 个 
分 类 的 新 邮件 而 言 ， 其 概率 与 针对 所 有 其 他 分 类 的 概率 相 比 ， 必 须 大 于 某 个 指定 的 数值 才 
行 。 这 一 指定 的 数值 就 是 阔 值 。 以 垃圾 邮件 过 小 为 例 ， 假 如 过 滤 到 “bad” 分 类 的 效 值 为 3， 
则 针对 “bad” 分 类 的 概率 就 必须 至 少 3 倍 于 针对 “good” 分 类 的 概率 才 行 。 假 如 针对 “good 
分 类 的 阔 值 为 1， 则 对 于 任何 邮件 ， 只 要 概率 确实 大 于 针对 “bad” 分 类 的 概率 ， 它 就 是 属 
于 “good” 分 类 的 。 任 何 更 有 可 能 属于 “bad” 分 类 ， 但 概率 并 没有 超过 3 倍 以 上 的 邮件 ， 
都 将 被 划 归 到 “未 知 ” 分 类 中 。 

为 了 定义 闪 值 ， 请 修改 初始 化 方法 ， 在 classifier 中 加 入 一 个 新 的 实例 变量 : 

def _ init _(self,getfeatures): 


classifier. init  _(self,getfeatures) 
self.thresholds={} 


请 加 入 几 个 用 于 设 值 和 取 值 的 简单 方法 ， 令 其 默认 返回 为 1.0: 


def setthreshold(self,cat,t): 
self.thresholds [cat] =t 


def getthreshold(self,cat): 
if cat not in self.thresholds: return 1.0 
return self.thresholds([cat] 


现在 ， 我 们 可 以 构建 classify 方法 了 。 该 方法 将 计算 每 个 分 类 的 概率 ， 从 中 得 出 最 大 值 ， 
并 将 其 与 次 大 概率 值 进行 对 比 ， 确 定 是 否 超过 了 规定 的 浆 值 。 如 果 没 有 任何 一 个 分 类 满足 
上 述 条 件 ， 方 法 就 返回 默认 值 。 请 将 该 方法 加 入 classifier 中 : 


def classify(self,item,default=None): 
probs={} 


# 寻找 概率 最 大 的 分 类 
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max=0.0 
for cat in self.categories(): 
probs [cat]=self.prob (item, cat) 
if probs [cat] >max: 
max=probs [cat] 
best=cat 


E 确保 概率 值 超出 域 值 * 次 大 概率 值 
for cat in probs: 

if cat==best: continue 

if probs[cat]*self.getthreshold (best)>probs [best]: return default 
return best 


大 功 告 成 ! 现在 我 们 已 经 建立 起 了 一 个 完整 的 文档 分 类 系统 。 通 过 构造 不 同 的 特征 提取 方 
法 ， 我 们 可 以 对 该 系统 进行 扩展 ， 以 实现 对 任何 其 他 内 容 的 分 类 。 请 在 你 的 Python 会 话 中 
试验 一 下 这 一 分 类 器 : 

>>> reload(docclass) 

<module 'docclass' from ‘docclass.pyc'’> 

>>> cl=docclass.naivebayes (docclass .getwords) 

>>> docclass.sampletrain (cl) 

>>> cl.classify('quick rabbit' ,default='unknown') 

good 

>>> cl.classify('quick money' ,default='unknown') 

'bad' 

>>> cl.setthreshold('bad' ,3.0) 

>>> cl.classify('quick money' ,default='unknown') 

*unknown' 

>>> for i in range(10): docclass.sampletrain(cl) 


>>> cl.classify('quick money' ,default='unknown') 
‘bad’ 


当然 ， 我 们 还 可 以 修改 一 下 国 值 ， 看 看 对 结果 有 何 影响 。 一 些 垃圾 信息 过 滤 插 件 为 用 户 提 
供 了 控制 闽 值 的 功能 ， 这 样 一 来 ， 只 要 当前 半 值 令 太 多 的 垃圾 邮件 进入 到 收 件 箱 中 ， 或 者 
有 大 量 正常 邮件 被 错 归 为 了 垃圾 邮件 ， 我 们 就 可 以 对 阅 值 进行 调整 。 当 然 ， 对 于 另 一 些 涉 
及 文档 过 让 的 应 用 而 言 ， 阅 值 的 定义 也 可 能 有 所 不 同 ， 与 上 述 情况 不 一 样 ， 有 时， 所 有 分 
类 可 能 都 是 平等 的 ， 而 有 时 ， 将 内 容 过 滤 到 “未 知 ” 分 类 则 是 不 可 接受 的 。 


费 舍 尔 方法 

The Fisher Method 

LI R. A. Fisher 的 名 字 命 名 的 费 舍 尔 方法 ， 是 前 面 介 绍 的 朴素 贝 叶 斯 方法 的 一 种 替代 方案 ， 
它 可 以 给 出 非常 精确 的 结果 ， 尤 其 适合 垃圾 信息 过 小 。SpamBayes， 一 个 用 Python 编写 的 


Outlook 插件 ， 便 采用 了 这 一 方法 。 与 朴素 贝 叶 斯 过 滤器 利用 特征 概率 来 计算 整 篇 文档 的 概 
率 不 同 ， 费 舍 尔 方法 为 文档 中 的 每 个 特征 都 求 得 了 分 类 的 概率 ， 然 后 又 将 这 些 概率 组 合 起 
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来 ， 并 判断 其 是 否 有 可 能 构成 一 个 随机 集合 。 该 方法 还 会 返回 每 个 分 类 的 概率 ， 这 些 概率 
彼此 间 可 以 进行 比较 。 尽 管 这 种 方法 更 为 复杂 ， 但 是 因为 它 在 为 分 类 选择 临界 值 (cutoff) 
时 允许 更 大 的 灵活 性 ， 所 以 还 是 值得 一 学 的 。 


针对 特征 的 分 类 概率 

Category Probabilities for Features 

前 面 讨 论 过 的 朴素 贝 叶 斯 过 滤器 ， 将 所 有 Pr(feature | category) 的 计算 结果 组 合 起 来 得 到 了 
整 篇 文档 的 概率 ， 然 后 再 对 其 进行 调换 求解 。 在 本 节 中 ， 我 们 将 直接 计算 当 一 篇 文档 中 出 
现 某 个 特征 时 ， 该 文档 属于 某 个 分 类 的 可 能 性 ， 也 就 是 Pr(category | feature), MRM ial 


“casino” [HA 500 篇 文档 中 , 并 且 其 中 有 499 篇 属于 “bad ”分 类 , I “casino” EF “bad” 
分 类 的 概率 将 非常 接近 于 1。 


计算 Pr(category | feature) 的 常见 方法 是 ;: 
(具有 指定 特征 的 属于 某 分 类 的 文档 数 ) / (具有 指定 特征 的 文档 总 数 ) 


上 述 计 算 公 式 并 没有 考虑 我 们 收 到 属于 某 一 分 类 的 文档 可 能 比 其 他 分 类 更 多 的 情况 。 假 如 
我 们 有 许多 “good ”分 类 的 文档 ,而 “bad ”分 类 的 文档 则 很 少 , 那么 一 个 出 现 于 所 有 “bad” 
类 文档 中 的 单词 ， 即 便 邮件 内 容 看 上 去 可 能 没有 问题 ， 该 单词 属于 “bad” 分 类 的 概率 也 依 
然 会 更 大 一 些 。 如 果 我 们 假设 “未 来 将 会 收 到 的 文档 在 各 个 分 类 中 的 数量 是 相当 的 "， 那 么 
上 述 方法 就 会 有 更 好 的 表现 ， 因 为 这 使 得 它们 能 更 有 效 地 利用 特征 来 识别 分 类 。 


为 了 进行 归 一 化 计算 ， 函 数 将 分 别 求 得 3 个 量 : 

。 ”属于 某 分 类 的 概率 clf = Pr(feature | category) 

es。 属于 所 有 分 类 的 概率 freqsum = Pr(feature | category) 之 和 

e cprob= clf/ (cif+nclf) 

请 在 docclass.py 中 为 classifier 新 建 一 个 子 类 , 取 名 fisherclassifier, 并 加 入 如 下 方 
法 : 


class fisherclassifier (classifier): 
def cprob(self,f,cat): 


# 特征 在 该 分 类 中 出 现 的 频率 
clf=self.fprob(f,cat) 
if clf==0: return 0 


# 特征 在 所 有 分 类 中 出 现 的 频率 


freqsum=sum([self.fprobl(f,c) for c in self.categoriest{)]) 


# 概率 等 于 特征 在 该 分 类 中 出 更 的 频率 除 以 总 体 频 率 
p=clf/ (freqsum) 


return p 
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基于 各 分 类 中 所 包含 的 内 容 项 数量 相当 的 假设 ， 该 函数 返回 的 概率 值 ， 代 表 了 具备 指定 特 
征 的 内 容 属于 指定 分 类 的 可 能 性 。 可 以 在 你 的 Python 会 话 中 看 一 下 这 些 概率 的 实际 计算 结 
果 : 

>>> reload (docclass) 

>>> cl=docclass.fisherclassifier (docclass.getwords) 

>>> docclass.sampletrain (cl) 

>>> cl.cprob('quick', 'good') 

0.57142857142857151 

>>> cl.cprob('money', 'bad') 

1.0 


上 述 方法 告诉 我 们 ， 包 含 单词 “casino” 的 文档 是 垃圾 邮件 的 概率 为 0.9。 这 与 训练 数据 是 
相符 的 ， 不 过 这 种 方法 同样 也 会 遇 到 前 文 提 到 的 问题 一 一 因为 算法 接触 单词 的 次 数 太 少 ， 
所 以 它 有 可 能 会 对 概率 值 估计 过 高 。 因 此 ， 不 妨 像 前 文 那样 ， 对 概率 进行 加 权 处 理 ， 即 : 
所 有 概率 值 均 以 0.5 作为 初始 值 ， 而 后 伴随 不 断 的 训练 过 程 ， 允许 它们 逐渐 向 其 他 概率 值 变 
化 。 


>>> cl.weightedprob ('money' ，'bad' ,cl .cprob) 
0.75 r 


将 各 概率 值 组 合 起 来 


Combining the Probabilities 


现在 ， 我 们 须要 将 对 应 各 个 特征 的 概率 值 组 合 起 来 ， 形 成 一 个 总 的 概率 值 。 理 论 上 ， 我 们 
可 以 将 它们 连 乘 起 来 ， 利 用 相 乘 的 结果 在 不 同 分 类 间 进 行 比较 。 当 然 ， 由 于 特征 不 是 彼此 
独立 的 ， 因 此 它们 并 不 代表 真实 的 概率 ， 不 过 这 已 经 比 我 们 在 前 一 节 中 构造 的 贝 叶 斯 分 类 
器 要 好 不 少 了 。 由 费 舍 尔 方法 返回 的 结果 是 对 概率 的 一 种 更 好 的 估计 ， 这 对 于 结果 报告 或 
临界 值 判断 而 言 是 非常 有 价值 的 。 


费 售 尔 方法 的 计算 过 程 是 将 所 有 概率 相 乘 起 来 ， 然 后 取 自 然 对 数 (Python 中 的 math.log), 
再 将 所 得 结果 乘 以 -2。 请 将 下 列 方 法 加 入 fisherclassifier 类 中 ， 以 实现 这 一 计算 过 程 : 


def fisherprob(self, item, cat): 
+ 将 所 有 概率 值 相 来 
p=1 
features=self.getfeatures (item) 
for f in features: 
p*=(self.weightedprob(f, cat, self.cprob) ) 


fscore=-2*math. log (p) 


# 利用 倒置 对 数目 方 函数 求 得 概率 


return self.invchi2 (fscore, len(features) *2) 
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费 舍 尔 方法 告诉 我 们 ， 如 果 概 率 彼此 独立 且 随 机 分 布 ， 则 这 一 计算 结果 将 满足 对 数 卡 方 分 
布 (chi-squared distribution) 。 也 许 我 们 会 预料 到 ， 不 属于 某 个 分 类 的 内 容 项 中 ， 可 能 会 包 
含 针 对 该 分 类 的 不 同 特征 概率 的 单词 (可 能 会 随机 出 现 )， 或 者 ， 一 个 属于 该 分 类 的 内 容 项 
中 会 包含 许多 概率 值 很 高 的 特征 。 通 过 将 费 舍 尔 方法 的 计算 结果 传 给 倒置 对 数 卡 方 函 数 ， 
我 们 会 得 到 一 组 随机 概率 中 的 最 大 值 。 


请 将 倒置 对 数 卡 方 函 数 加 入 fisherclassifier KH; 


def invchi2{self,chi,df): 
m= chi / 2.0 
sum = term = math.exp(-m) 
for iin rangati; df//2): 
term *= m / i 
sum += term 
return min({sum, 1.0) 


我 们 依然 可 以 在 自己 的 Python 会 话 中 试验 该 函数 ， 看 看 费 舍 尔 方法 是 如 何 对 样本 字符 串 进 
行 评价 的 ， 
>>> reload{docclass) 
>>> cl=docclass.fisherclassifier (docclass.getwords) 
>>> docclass.sampletrain (cl) 
>>> cl.cprob('quick', 'good') 
0.57142857142857151 
>>> cl.fisherprob('quick rabbit', 'good') 
0.78013986588957995 
>>> cl.fisherprob('quick rabbit', 'bad') 
0.35633596283335256 


正如 我 们 所 看 到 的 ， 结 果 总 是 介 于 0 和 1 之 间 。 这 些 结果 本 身 即 是 衡量 文档 所 属 分 类 的 一 
种 很 好 的 度量 方法 。 正 是 由 于 这 一 点 ,分 类 器 本 身 才 有 可 能 变 得 更 为 有 效 。 


对 内 容 项 进行 分 类 


Ciassifying Items 


我 们 可 以 利用 fisherprob AYR REKREA RET DE. AMR AM EE ak ADEE A ESE, 
RH, HRM Ae RKE TR. Ra, TRESRATTHRECRBANRKIA. 
在 垃圾 信息 过 滤器 中 ,我 们 可 以 将 “bad” 分 类 的 下 限 值 设 得 很 高 ， 比 如 0.6, “good” 
分 类 的 下 限 值 设置 得 很 低 ， 比 如 0.2。 这 样 做 可 以 将 正常 邮件 被 错 归 到 “bad” 分 类 的 可 能 
性 减 到 最 小 ， 同 时 也 会 允许 少量 垃圾 邮件 进入 到 收 件 箱 中 。 任 何 针对 “good” 分 类 的 分 值 
(EF 0.2， 针 对 “bad” 分 类 的 分 值 低 于 0.6 的 邮件 ， 都 将 被 划 归 到 “未 知 ” 分 类 中 。 
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请 在 fisherclassifier 类 中 新 建 一 个 init 方法 ， 再 增加 一 个 保存 临界 值 的 变量 ;: 


def init _(self,getfeatures): 
classifier. init _(self,getfeatures) 
self .minimums={ } 


请 将 下 述 两 个 用 于 设 值 和 取 值 的 方法 加 入 类 中 ， 默 认 取 值 为 0; 


def setminimum(self,cat,min): 
self.minimums([cat]=min 


def getminimum(self,cat): 
if cat not in self.minimums: return 0 
return self.minimums [cat] 


最 后 ， 再 添加 一 个 方法 ， 用 以 计算 每 个 分 类 的 概率 ， 并 找到 超过 指定 下 限 值 的 最 佳 结果 : 


def classifyl(self,item,default=None): 
E 拍 环 遍历 并 寻找 最 佳 结果 
best=default 
max=0.0 
for c in self.categories(): 
p=self.fisherprob(item,c) 
E 确保 其 超过 下 限 值 
if p>self.getminimum(c) and p>max: 
best=c 
max=p 
return best 


现在 我 们 可 以 针对 测试 数据 ， 利 用 费 舍 尔 评价 方法 试验 一 下 分 类 器 了 。 请 在 你 的 Python 会 
话 中 输入 如 下 代码 : 


>>> reload(docclass) 

<module ‘docclass' from 'docclass.py'> 
>>> docclass.sampletrain(cl) 
>>> cl.classify('quick rabbit') 
*good’ 

>>> cl.classify('quick money') 
'bad' 

>>> cl,setminimum ('bad',0.8) 
>>> cl.classify('quick money') 
'good' 

>>> cl,setminimum('good',0.4) 
>>> cl.classify('quick money') 
>>> 


此 处 的 执行 结果 与 朴素 贝 叶 斯 分 类 器 的 结果 类 似 。 人 们 相信 ， 在 实践 中 费 舍 尔 分 类 器 对 垃 
圾 信息 的 过 滤 效 果 会 更 好 ， 只 不 过 对 于 这 样 一 小 组 训练 数据 而 言 ， 过 滤 的 效果 可 能 不 太 明 
显 。 应 该 使 用 何 种 分 类 器 要 取决 于 你 的 应 用 ,没有 一 种 简单 方法 可 以 预测 出 什么 样 的 分 类 
器 会 更 好 ， 或 者 我 们 应 该 使 用 多 大 的 临界 值 。 所 幸 的 是 ， 利 用 此 处 给 出 的 代码 ， 我 们 应 该 
能 够 很 容易 地 对 两 种 算法 以 及 各 种 不 同 的 设置 项 进行 试验 。 
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将 经 过 训练 的 分 类 器 持久 化 
Persisting the Trained Classifiers 


在 任何 真实 世界 的 应 用 中 ， 所 有 的 训练 和 分 类 工作 都 不 太 可 能 完全 在 一 次 会 话 中 完成 。 如 
果 分 类 器 被 用 作 Web 应 用 的 一 部 分 ， 那 么 我 们 就 有 可 能 须要 将 用 户 在 使 用 系统 期 间 所 产生 
的 任何 与 训练 相关 的 数据 保存 起 来 ,然后 在 下 一 次 用 户 登 录 之 后 再 将 数据 恢复 。 


使 用 SQLite 


| ss oo: fa DF © 
Sing YALE 


本 节 中 我 们 将 为 大 家 示范 如 何 利用 数据 库 (本 例 中 为 SQLite) 将 分 类 器 的 训练 信息 进行 持 
入 化 。 如 果 我 们 的 应 用 涉及 许多 用 户 同时 对 分 类 器 进行 训练 和 查询 ， 那 么 将 计数 值 存 入 数 
据 库 可 能 是 一 个 明智 之 举 。SQLite 就 是 我 们 曾 在 第 4 章 中 使 用 过 的 数据 库 。 如 果 你 还 没有 
用 过 pysqlite， 则 须要 先 将 其 下 载 并 安装 ， 有 关 下 载 和 安装 的 详细 情况 请 见 附录 A。 通 过 
Python 访问 SQLite 与 访问 其 他 数据 库 是 很 类 似 的 ， 因 此 如 果 要 进行 数据 库 移植 应 该 也 非常 
的 容易 。 


为 了 将 pysqlite 引入 进来 ， 请 将 下 列 语句 加 入 docclass.py 的 首部 : 


from pysqlite2 import dbapi2 as sqlite 


本 节 中 的 代码 将 当前 classifier 类 中 所 用 的 字典 结构 都 替换 为 了 一 个 持久 化 的 数据 存储 
结构 。 请 在 classifier 中 添加 一 个 方法 ， 为 该 分 类 器 打开 数据 库 ， 并 在 必要 时 执行 建 表 操 
作 。 这 些 数据 表 与 它们 所 替换 的 字典 在 结构 上 是 相 匹配 的 : 


def setdb(self,dbfile): 
self.con=sqlite.connect (dbfile) 
self.con.execute ('create table if not exists fc(feature, category, count) ') 
self.con.execute('create table if not exists cc(category,count) ') 


如 果 我 们 正 打算 将 分 类 器 移植 到 另 一 个 数据 库 上 ， 为 了 能 够 在 所 使 用 的 目标 系统 上 正常 运 
行 ， 有 可 能 须要 修改 相应 的 建 表 语句 。 


我 们 还 须要 替换 所 有 用 于 获取 和 累加 计数 值 的 辅助 函数 


def incf(self,f,cat): 
count=self.fcount (f,cat) 
if count==0: 
self.con.execute("insert into fc values ('%s','%s',1)" 
% (f£,cat)) 
else: 
self.con.execute ( 
"update fc set count=%td where feature='%s' and category='%s'" 
% (count+1l,f,cat)) 


def fcount (self, f,cat): 
res=self.con.execute( 


‘select count from fc where feature="%s" and category="%s"' 
%(f,cat)).fetchone() 


132 | 第 6 章 : 文档 过 滤 


vw ai bot. com 0000000 


if res==None: return 0 
else: return float(res[0])) 


def incc(self,cat): 
count=self.catcount (cat) 
if count==0: 


self.con.execute ("insert into cc values ('%s',1)" % (cat)) 


else: 


self.con.execute ("update cc set count=%d where category='%s'" 


% (count+1l,cat)) 


def catcount(self,cat): 


res=self.con.execute('select count from cc where category="%s"' 


%(cat)).fetchone () 
if res==None: return 0 
else: return float (res[0]) 


获取 所 有 分 类 的 列表 与 文档 总 数 的 方法 也 应 该 被 替换 掉 ， 
def categories (self): 
cur=self.con.execute('select category from cc'); 


return [da[0] for d in cur) 


def totalcount (self): 


res=self.con.execute('select sum(count) from cc').fetchone(); 


if res==None: return 0 
return res[0] 


最 后 ， 我 们 须要 在 训练 结束 之 后 添加 一 条 提交 语句 ， 以 便 在 所 有 计数 值 被 更 新 之 后 程序 能 


将 数据 存 人 数据 库 。 请 将 下 列 代码 行 加 入 classifier 中 train 方法 的 末尾 处 : 


self.con.commit () 


大 功 告 成 ! FEM classifier 初始 化 之 后 ， 我 们 须要 调用 setdb 方法 ， 并 传人 数据 库 文件 
的 名 称 。 所 有 训练 数据 都 将 被 自动 在 人 数据 库 中 ， 并 且 能 够 为 任何 其 他 人 所 使 用 。 我 们 甚 


至 可 以 将 取 自 某 一 分 类 器 的 训练 数据 用 于 另 一 种 类 型 的 分 类 器 : 


>>> reload(docclass) 

<module 'docclass' from ‘docclass.py'> 

>>> cl=docclass.fisherclassifier (docclass.getwords) 
>>> cl.setdb('testl.db') 

>>> docclass.sampletrain(cl) 

>>> cl2=docclass .naivebayes (docclass.getwords) 

>>> cl2.setdb('testi1.db') 

>>> cl2.classify('quick money') 

u'bad' 
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为 了 在 真实 环境 下 试验 分 类 器 ， 也 为 了 演示 其 不 同 的 用 途 ， 我 们 可 以 将 分 类 器 应 用 于 来 自 
某 个 博客 或 RSS 订 阅 源 的 内 容 项 。 为 此 ,我 们 需要 用 到 曾 在 第 3 章 中 介绍 过 的 Universal Feed 
Parser。 如 果 你 还 没有 下 载 相 应 的 函数 库 ， 则 可 以 通过 访问 httpVfeedparser.org 进行 下 载 。 
有 关 安 装 Feed Parser 的 更 多 信息 请 见 附 录 A, 


尽管 博客 的 内 容 中 未 必 会 包含 垃圾 信息 ， 但 是 在 众多 博客 所 包含 的 文章 中 ， 并 非 所 有 的 文 
章 都 是 我 们 感 兴趣 的 。 这 也 许 是 因为 我 们 只 和 希望 阅读 属于 某 个 分 类 的 文章 ， 或 者 某 位 作者 
所 撰写 的 文章 ， 不 过 通常 而 言 实际 情况 要 比 这 更 为 复杂 。 同 样 地 ， 我 们 也 可 以 针对 自己 感 
兴趣 和 不 感 兴趣 的 内 容 定义 一 些 专门 的 规 见 件 装 置 
(gadget) 的 博客 ， 并 且 对 其 中 包含 单词 “cell phone” 的 内 容 不 感 兴趣 一 一 但 是 ， 假 如 利用 


前 面 已 经 构造 好 的 分 类 器 来 为 我 们 得 出 上 述 这 些 规 则 ， 其 所 需 的 工作 量 相对 而 言 会 更 少 一 
此 


—-o 


对 一 个 RSS 订阅 源 中 的 内 容 项 进行 分 类 的 好 处 在 于 , 假如 我 们 使 用 了 像 Google Blog Search 
这 样 的 博客 搜索 工具 ， 那 么 就 可 以 在 订阅 源 的 阅读 器 中 对 搜索 的 结果 进行 定制 了 。 许 多 人 
以 此 来 追踪 产品 和 他 们 感 兴趣 的 内 容 ， 甚 至 还 包括 他 们 自己 的 名 字 。 但 是 我 们 会 发 现 ， 试 
图 利用 流量 来 赚钱 的 垃圾 博客 和 那些 毫 无 价值 的 博客 也 有 可 能 会 出 现在 这 些 搜索 结果 当 
中 。 


尽管 许多 订阅 源 因 为 拥有 的 内 容 项 太 少 而 无 法 进行 任何 有 效 的 训练 ， 不 过 在 本 例 中 ， 我 们 
还 是 可 以 根据 自己 的 喜好 来 选择 任何 的 订阅 源 。 在 这 个 特定 的 例子 里 ， 我 们 使 用 Google 
Blog Search 对 单词 “Python” 进 行 搜索 ， 其 搜索 结果 都 是 RSS 形式 的 。 你 可 以 从 http: 
//kiwitobes.com/feeds/python_search.xml 处 下 载 到 这 些 结果 。 


请 新 建 一 个 名 为 feedfilterpy 的 文件 ， 并 加 入 下 列 代 码 : 


import feedparser 
import re 








# 接受 一 个 博客 订阅 源 的 URL 文件 名 并 对 内 容 项 进行 分 类 
def read(feed,classifier): 
E 得 到 订阅 源 的 内 容 项 并 遍历 往 环 
f=feedparser.parse (feed) 
for entry in f['entries']: 
print 
print “一 一 一 一 一 
8 Pern 
print ‘Title: ‘tentry['title'].encode('utf-8') 
print "Publisher: '+entry['publisher'].encode('utf-8') 
print 
print entry['summary'].encode('utf-8"') 


# 将 所 有 文本 组 合 在 一 起 ， 为 分 类 器 构建 一 个 内 容 项 
fulltext='%ts\nts\nts' % (entry['title’],entry['publisher'’],entry[{'summary’')) 
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# 将 当前 分 类 的 最 佳 推测 结果 打印 输出 


print 'Guess: '+str(classifier.classify(fulltext)) 


# 请 求 用 户 给 出 正确 分 类 ， 并 据 此 进行 训练 
cl=raw_input('Enter category: ‘) 
classifier.train(fulltext,cl) 


该 函数 循环 遍历 所 有 内 容 项 ， 并 利用 分 类 器 得 到 有 关 分 类 的 最 佳 推测 结果 。 它 向 用 户 给 出 
最 佳 推测 ， 并 接着 询问 正确 的 分 类 是 什么 。 当 我 们 使 用 一 个 新 的 分 类 器 运行 该 程序 时 ， 起 
初 的 推测 结果 将 会 带 有 随机 性 ， 但 是 它们 会 随 着 时 间 的 推移 逐步 得 到 改善 。 


上 述 构建 好 的 分 类 器 是 完全 通用 的 。 尽 管 我 们 利用 了 垃圾 信息 过 滤 的 例子 来 帮助 说 明 每 段 
代码 的 工作 原理 ， 但 是 分 类 的 类 别 则 可 以 是 任何 形式 的 内 容 。 如 果 你 正在 使 用 
python_search.xml， 那 么 其 中 也 许 包含 了 4 个 分 类 个 是 关于 编程 语言 的 ,一 个 是 关于 
电影 《Monty Python) 的 ， 一 个 是 关于 蟒蛇 的 ， 还 有 一 个 则 是 涉及 任何 其 他 内 容 的 。 请 在 你 
的 Python 会 话 中 试 着 运行 一 下 这 个 交互 式 的 过 滤器 ， 设 置 好 一 个 分 类 器 ， 并 将 其 传 给 


feedfilter; 





>>> import feedfilter 

>>> cl=docclass.fisherclassifier (docclass.getwords) 
>>> cl.setdb('python_feed.db') 间 仅 当 你 使 用 的 是 SQLite 
>>> feedfilter.read('python search .xml' ,cl) 


Title: My new baby boy! 
Publisher: Shetan Noir, the zombie belly dancer! - MySpace Blog 


This is my new baby, Anthem. He is a 3 and half month old ball <b>python</b>, 
orange shaded normal pattern. I have held him about 5 times since I brought him 
home tonight at 8:00pm... 

Guess: None 

Enter category: snake 


Title: If you need a laugh... 
Publisher: Kate&#39;s space 


Even does ‘funny walks' from Monty <b>Python</b>. He falks about all the ol’ 
Guess: snake 
Enter category: monty 


Title: And another one checked off the list..New pix comment ppl 
Publisher: And Python Guru - MySpace Blog 


Now the one of a kind NERD bred Carplot male is in our possesion. His name is Broken 
(not because he is sterile) lol But check out the pic and leave one 


Guess: snake 
Enter category: snake 
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我 们 会 发 现 ， 推 测 的 结果 随 着 时 间 的 推移 在 逐 源 的 改善 。 由 于 没有 太 多 有 关于 蛇 的 样本 信 
息 ， 尤 其 是 它们 被 进一步 划分 成 了 宠物 蛇 和 时 尚 一 类 的 帖子 ， 因 此 分 类 器 对 于 这 一 分 类 的 
推测 结果 时 常 是 错误 的 。 当 执行 完整 个 训练 之 后 ， 我 们 就 可 以 得 到 针对 于 指定 特征 的 概率 
值 了 一 一 包括 针对 给 定 分 类 的 单词 概率 ， 以 及 针对 给 定单 词 的 分 类 概率 : 

>>> cl.cprob('python', 'prog') 

0. 33333333333333331 

>>> cl.cprob('python', 'snake') 

0. 33333333333333331 

>>> cl.cprob('python', 'monty') 

G... 33333333333333332 

>>> cl.cprob('eric', 'monty') 

1.0 

>>> cl.fprob('eric', 'monty') 

0.25 


从 上 述 结果 中 我 们 可 以 看 到 ， 由 于 每 个 内 容 项 都 包含 单词 “python”"， 因 此 该 单词 的 概率 被 
等 分 了 。 在 涉及 《Monty Python》 的 内 容 项 中 ， 有 25% 的 文章 包含 了 单词 “Eric”"， 而 其 他 
内 容 项 中 则 没有 出 现 该 单词 。 因 此 就 “Eric” 而 言 ， 对 于 给 定 分 类 的 单词 概率 为 0.25， 而 
对 于 给 定单 词 的 分 类 概率 则 为 1.0。 


对 特征 检测 的 改进 


Improving Feature Detection 


目前 为 止 的 所 有 例子 中 ， 建 立 特征 列表 的 函数 只 是 简单 地 使 用 了 非 字 母 非 数 字 类 字符 作为 
分 隔 符 对 单词 进行 拆 分 。 函 数 还 将 所 有 单词 都 转换 成 了 小 写 形式 ， 因 此 我 们 没有 办 法 检测 
大 写 单词 的 过 度 使 用 问题 。 有 几 种 不 同 的 方法 可 以 对 其 加 以 改进 。 


。 不 真正 区 分 大 写 和 小 写 的 单词 ， 而 是 将 “含有 许多 大 写 单词 ”这 样 的 现象 作为 一 种 特 
征 。 


。 除了 单个 单词 以 外 ， 还 可 以 使 用 词组 。 


© ”捕获 更 多 的 元 信息 , ,如 : 是 谁 发 送 了 电子 邮件 , 或 者 一 篇 博客 被 提交 到 了 哪个 分 类 下 ， 
可 以 将 这 样 的 信息 标示 为 元 信息 。 


。 ”保持 URL 和 数字 原封 不 动 ， 不 对 其 进行 拆 分 。 


请 记 住 ， 这 不 仅 是 让 特征 更 有 针对 性 这 么 简单 。 特 征 必 须 出 现 于 多 篇 文档 之 中 ， 因 为 它们 
对 分 类 器 而 言 起 了 很 大 的 作用 。 


classifier 类 可 以 接受 任何 形式 的 函数 作为 getfeatures， 它 就 传人 的 内 容 项 运行 该 函 
数 ， 并 预期 返回 一 个 针对 该 内 容 项 的 包含 所 有 特征 的 列表 或 字典 。 由 于 这 种 通用 性 ， 我 们 
可 以 轻松 地 建立 起 一 个 函数 ， 令 其 处 理 比 简单 的 字符 串 而 言 更 为 复杂 的 类 型 。 例 如 ， 当 对 
一 个 博客 订阅 源 的 内 容 项 进行 分 类 时 ， 我 们 可 以 编写 一 个 函数 ， 令 其 接受 整 篇 文章 的 内 容 ， 
而 非 从 中 提取 出 来 的 文本 ， 然 后 标注 出 各 个 单词 的 来 源 。 我 们 还 可 以 从 文本 正文 中 找 出 词 
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组 ， 而 从 主题 中 找 出 个 别 的 单词 。 此 外 ， 对 记录 文章 创建 者 的 字段 进行 拆 分 可 能 也 是 毫 无 
意义 的 ， 因 为 名 叫 “John Smith” 的 人 所 提交 的 内 容 ， 是 不 太 可 能 会 告诉 我 们 任何 有 关 其 他 
AY John 的 人 所 提交 的 内 容 的 。 


请 将 这 个 新 的 特征 提取 函数 加 入 feedfilterpy 中 。 请 注意 ， 它 需要 的 是 一 个 订阅 源 的 内 容 项 
作为 参数 ， 而 非 字符 串 : 
` def entryfeatures (entry): 


splitter=re.compile('\\W*') 
f={) 


# 提取 标题 中 的 单词 并 进行 标示 

titlewords=[s.lower() for s in splitter.split(entry['title’ 1) 
if len(s)>2 and len(s)<20] 

for w in titlewords: f['Title: +W]=1 


# 提取 摘要 中 的 单词 


summarywords=[s.lower() for s in splitter.split(entry['summary"']) 
if len(s)>2 and len(s)<20] 


+ 统计 大 写 单词 

uc=0 

for i in range(len(summarywords) ): 
w=summarywords [i] 
f[w]=1 i 
if w.isupper(): uc+=1 


# 将 从 摘要 中 获得 的 词组 作为 特征 

if i<len(summarywords)-1: 
twowords=' '.join(summarywords [i:i+1)) 
f [twowords]=1 


# 保持 文章 创建 者 和 发 布 者 名 字 的 完整 性 
f({'Publisher:'tentry['publisher']]=1 


# UPPERCASE 是 一 个 “虚拟 ”单词 ， 用 以 指示 存在 过 多 的 大 写 内 容 
if float (uc})/len (summarywords)>0.3: f['UPPERCASE']=1 


return f 


上 述 函 数 从 文档 和 摘要 中 提取 单词 ， 就 如 同 此 前 的 getwords 那样 。 它 将 所 有 位 于 标题 中 的 
单词 标识 出 来 ， 并 将 其 作为 特征 。 位 于 摘要 中 的 单词 以 及 前 后 连贯 的 词组 ， 也 被 当 作 了 特 
征 。 函 数 还 将 未 经 拆 分 的 内 容 创 建 者 和 发 布 者 当 作 了 特征 。 最 后 ， 它 统计 了 搞 要 中 大 写 单 
词 的 出 现 次 数 。 一 旦 有 超过 30% 的 单词 为 大 写 形式 ， 函 数 就 会 在 特征 集中 加 大 这 一 特征 ， 
并 取 名 为 “UPPERCASE”。 与 认为 “大 写 单词 代表 着 某 种 特殊 情况 ”的 规则 不 同 ， 这 只 是 
一 个 附加 的 特征 ， 分 类 器 可 以 利用 该 特征 来 进行 训练 一 一 而 在 某 些 场合 下 ， 分 类 器 也 可 能 
会 认为 这 一 特征 对 于 区 分 文档 分 类 而 言 是 完全 没有 用 处 的 。 
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如 果 希 望 将 这 一 新 函数 与 filterfeed 结合 使 用 , 我 们 就 须要 修改 代码 , 将 内 容 项 而 非 全 文 
作为 参数 传 给 分 类 器 。 请 将 函数 的 末尾 处 修改 如 下 : 


# 将 当前 分 类 的 最 住 推测 结果 打印 输出 


print ‘Guess: '+str(classifier.classifyt{entry)) 


# 请 求 用 户 给 出 正确 分 类 ， 并 据 此 进行 训练 
cl=raw_input('Enter category: ') 
classifier.train(entry,cl) 


随后 ， 我 们 就 可 以 初始 化 分 类 器 ， 并 将 entryfeatures 用 作 特 征 提取 函数 了 : 


>>> reload (feedfilter) 
<module 'feedfilter' from 'feedfilter.py'> 
>>> cl=docclass.fisherclassifier (feedfilter.entryfeatures) 


>>> cl.setdb('python_feed.db') # 仅 当 你 使 用 的 是 DB 版 的 代码 
>>> feedfilter.read('python search.xml' ,cl) 


关于 特征 ， 我 们 还 有 许多 工作 可 做 。 前 文 构造 的 基本 框架 允许 我 们 定义 自己 的 特征 提取 函 
数 ， 并 设置 分 类 器 令 其 使 用 该 函数 。 分 类 器 将 对 任何 传人 的 对 象 进行 分 类 ， 只 要 我 们 指定 
的 特征 提取 函数 能 够 根据 对 象 返 回 一 组 特征 即 可 。 


使 用 Akismet 


Eeerary fader ; 
Using AKISMEL 


Akismet 与 本 章 介绍 的 有 关 文 本 分 类 算法 的 研究 稍 有 些 偏 离 ,不 过 对 于 特定 类 型 的 应 用 而 言 ， 
(E Akismet 可 以 花费 最 小 的 代价 满足 你 对 垃圾 信息 过 滤 的 需求 ,同时 也 免 去 了 自己 构造 分 
类 器 的 需要 。 


Akismet 是 作为 WordPress 的 一 个 插件 发 展 而 来 的 ， 它 允许 人 们 向 其 报告 提交 到 各 自 博客 上 
的 垃圾 评论 ， 并 与 他 人 报告 的 垃圾 评论 进行 相似 度 对 比 ， 对 新 提交 的 评论 进行 过 滤 。 目 前 
这 些 API 是 开放 的 ， 因 此 我 们 可 以 向 Akismet 发 起 任何 字符 串 查询 请 求 ， 以 获知 Akismet 
是 否认 为 该 字符 串 属于 垃圾 信息 。 

我 们 要 做 的 第 一 件 事情 是 获得 一 个 Akismet 的 API 密 钥 ， 可 以 从 http/akismet.com 获取 到 
该 密 钥 。 这 些 密 钥 对 于 个 人 用 途 而 言 是 免费 的 ， 此 外 还 有 一 些 针 对 商业 用 途 的 密 钥 可 供 选 
择 。 Akismet API 是 通过 常规 的 HTTP 请 求 进行 调用 的 ， 相 应 的 函数 库 已 经 被 写成 了 各 种 
不 同 的 语言 .本 节 中 用 到 的 函数 库 可 以 从 http: //kemayo.wordpress.com/2005/12/02/akismet-py 
处 下 载 到 。 请 下 载 akismet.py， 并 将 其 与 你 的 代码 放 入 同一 生 录 下 ， 或 者 也 可 以 将 其 放 人 
Python 库 所 在 的 目录 下 。 

API 的 用 法 非常 简单 。 请 新 建 一 个 名 为 akismettest.py 的 文件 ， 并 加 入 下 列 函 数 ， 


import akismet 


defaultkey = "YOURKEYHERE" 
pageurl="http://yoururlhere.com" 
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defaultagent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.7) " 
defaultagent+="Gecko/20060909 Firefox/1.5.0.7" 


def isspam(comment, author, ipaddress, 
agent=defaultagent, 
apikey=defaultkey) : 
try: 
valid = akismet.verify key (apikey, pageurl) 
if valid: 
return akismet.comment_check(apikey,pageurl, 
ipaddress, agent, comment_content=comment, 
comment_author email=author,comment_type="comment”™) 
else: 
print ‘Invalid key' 
return False 
except akismet.AkismetError, e: 
print e.response, e.statuscode 
return False 


现在 ， 我 们 已 经 拥有 了 一 个 可 以 接受 任何 字符 串 的 可 供 调 用 的 方法 ， 我 们 可 以 调用 该 函数 
来 判断 传人 的 字符 串 是 否 与 博客 评论 中 的 内 容 相 类 似 。 请 在 你 的 Python 会 话 中 尝试 一 下 ， 
>>> import akismettest 
>>> msg='Make money fast! Online Casino! ' 


>>> akismettest.isspam(msg, 'spammer@spam.com','127.0.0.1') 
True 


请 以 不 同 的 用 户 名 、 代 理 和 IP 地 址 进行 试验 ， 观 察 结果 如 何 变化 。 


由 于 Akismet 的 主要 用 途 是 对 提交 到 博客 上 的 垃圾 评论 进行 判断 ,因此 它 也 许 并 不 适合 处 理 
其 他 类 型 的 文档 ， 如 电子 邮件 。 而 且 ， 与 前 述 分 类 器 不 同 的 是 ， 它 不 允许 你 对 传人 的 参数 
做 任何 的 调整 ， 我 们 也 无 法 洞悉 其 求解 答案 的 具体 计算 过 程 。 不 过 ，Akismet 对 于 垃圾 评论 
的 过 滤 而 言 还 是 非常 准确 的 ， 而 且 假如 我 们 的 应 用 正在 不 断 地 遭受 到 相似 种 类 的 垃圾 信息 
NG, AZ Akismet 是 值得 一 试 的， 因为 与 我 们 可 能 搜集 到 的 数据 量 相 比 ，Akismet 拥有 
一 个 相当 巨大 的 对 比 用 文档 集 。 


BATE 


Alfernative Methods 


本 章 中 介绍 的 两 个 分 类 器 都 是 监督 型 学 习 方 法 (supervised leaming methods) 的 例子， 这 是 
一 种 利用 正确 结果 接受 训练 并 逐步 作出 更 准确 预测 的 方法 。 第 4 章 中 介绍 过 的 用 于 对 搜索 
结果 进行 排名 的 人 工 神 经 网 络 是 另 一 个 监督 型 学 习 的 例子 。 通 过 将 特征 作为 输入 ， 并 令 输 
出 代表 每 一 种 可 能 的 分 类 ， 我 们 也 可 以 将 神经 网 络 用 于 本 章 中 的 相同 问题 。 同 样 地 ,第 9 
章 中 介绍 的 支持 向 量 机 (support vector machines), ， 也 可 以 用 于 解决 本 章 中 的 问题 。 
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贝 叶 斯 分 类 器 之 所 以 经 常 被 用 于 文档 分 类 的 原因 是 ， 与 其 他 方法 相 比 它 所 要 求 的 计算 资源 
更 少 。 一 封 电子 邮件 可 能 包含 数 百 甚 至 数 千 个 单词 ， 与 训练 相应 规模 大 小 的 神经 网 络 相 比 ， 
简单 地 更 新 一 下 计数 值 所 需 占用 的 内 存 资源 和 处 理 器 时 钟 周期 会 更 少 。 而 且 正 如 你 所 看 到 
的 ， 这 些 工作 完全 可 以 在 一 个 数据 库 中 完成 。 神 经 网 络 是 否 会 成 为 一 种 可 行 的 替代 方案 ， 
取决 于 训练 和 查询 所 要 求 的 速度 ， 以 及 实际 运行 的 环境 。 神 经 网 络 的 复杂 性 导致 了 其 在 理 
解 上 的 困难 。 在 本 章 中 ， 我 们 可 以 清楚 地 看 到 单词 的 概率 ， 以 及 它们 对 最 终 分 值 的 实际 贡 
献 有 多 大 ， 而 对 于 网 络 中 两 个 神经 元 之 间 的 连接 强度 而 言 ， 则 并 不 存在 同样 简单 的 解释 。 


男 一 方面 ， 与 本 章 中 所 介绍 的 分 类 器 相 比 ， 神 经 网 络 和 支持 向 量 机 有 一 个 很 大 的 优势 ， 它 
们 可 以 捕捉 到 输入 特征 之 间 更 为 复杂 的 关系 。 在 贝 叶 斯 分 类 器 中 ， 每 个 特征 都 有 一 个 针对 
各 分 类 的 概率 值 ， 将 这 些 概率 组 合 起 来 之 后 就 得 到 了 一 个 整体 上 概率 值 。 在 神经 网 络 中 ， 
某 个 特征 的 概率 可 能 会 依据 其 他 特征 的 存在 或 缺失 而 改变 。 也 许 你 正在 试图 阻止 有 关 在 线 
赌博 的 垃圾 信息 ， 但 是 又 对 跑马 很 感 兴趣 ， 在 这 种 情况 下 ， 只 有 当 电子 邮件 中 的 其 他 地 方 
没有 出 现 单词 “horse” 时 ， 单词 “casino” 才 被 认为 是 “bad” 的 。 朴 素 贝 叶 斯 分 类 器 无 法 
捕获 这 样 的 相互 依赖 性 ， 而 神经 网 络 却 是 可 以 的 。 


练习 


EYF 
i AOI 


1. 改变 假设 概率 ”请 修改 classifier 类 ， 使 其 能 够 支持 针对 不 同 特征 的 不 同 假设 概率 。 
修改 init HH, 使 其 能 够 接受 其 他 分 类 器 作为 参数 , 并 从 一 个 更 合理 的 假设 概率 推测 值 
(而 不 是 0.5) 开始 。 


2. 计算 Pr(Document) 在 朴素 贝 叶 斯 分 类 器 中 ，PrfDocumenb) 的 计算 被 略 过 了 ， 因 为 它 对 
于 比较 概率 值 而 言 并 不 是 必需 的 。 在 特征 彼此 独立 的 前 提 下 ， 事 实 上 利用 Pr(Document) 
来 计算 整体 概率 值 是 可 行 的 。 应 该 如 何 计 算 Pr(Documeni WE? 


. POP-3 电子 邮件 过 滤器 Python 有 一 个 用 于 下 载 电子 邮件 的 库 ， 叫 做 poplib。 请 编写 一 
段 脚本 ， 从 服务 器 下 载 电 子 邮件 ， 并 尝试 对 其 进行 分 类 。 一 封 电子 邮件 包含 有 哪些 不 同 
的 属性 ?你 将 如 何 利用 这 些 属性 来 构建 特征 提取 函数 呢 ? 


4. 任意 长 度 的 短语 “本章 为 你 示范 了 提取 词组 和 单个 单词 的 方法 。 请 修改 代码 令 特征 提取 
过 程 变 得 可 配置 ， 使 其 能 够 一 次 提取 出 一 组 拥有 指定 数量 的 单词 ， 并 将 之 作为 一 个 独立 
的 特征 。 


w 
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5. 保留 IP 地 址 IP 地 址 、 电 话 号 码 , 以 及 其 他 数字 信息 可 能 有 助 于 对 垃圾 信息 的 识别 。 请 
修改 特征 提取 函数 ， 使 其 将 这 些 信息 作为 特征 加 以 返回 (IP 地址 中 包含 有 句号 ,但 是 你 
依然 须要 剔除 句子 间 的 句号 ) 。 


6. 其 他 虚拟 特征 ”有 许多 像 UPPERCASE 那样 的 虚拟 特征 ， 这 些 特征 可 能 对 文档 分 类 很 有 
帮助 。 篇 幅 过 长 的 文档 或 长 单词 占据 优势 的 情况 也 有 可 能 是 一 种 线索 。 请 将 这 些 情况 也 
作为 特征 。 你 还 能 想到 其 他 情况 吗 ? 


7. 神经 网 络 分 类 器 请 修改 第 4 章 中 的 神经 网 络 ， 利 用 它 对 文档 进行 分 类 。 如 何 对 神经 网 
络 的 输出 结果 进行 比较 ?请 编写 一 个 程序 对 文档 进行 分 类 ， 并 对 其 进行 上 千 次 的 训练 。 
记录 每 一 种 算法 执行 所 需 的 时 间 。 如 何 对 这 些 算 法 作出 对 比 呢 ? 
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第 7 章 
决策 树 建 模 


Modeling with Decision Trees 


到 目前 为 止 ， 我 们 已 经 掌握 了 几 种 不 同 的 自动 分 类 器 算法 ， 本 章 我 们 将 对 此 做 进一步 延伸 ， 
介绍 一 种 非常 有 用 的 算法 ， 叫 做 决策 树 学 习 。 不 同 于 其 他 大 多 数 分 类 器 ， 由 决策 树 产生 的 
模型 具有 易于 解释 的 特点 一 一 贝 叶 斯 分 类 器 中 的 数字 列表 会 告诉 我 们 每 个 单词 的 重要 程度 ， 
但 是 你 必须 经 过 计算 才能 够 确 知 结果 到 底 如 何 。 理 解 神经 网 络 的 难度 则 更 大 ， 因 为 位 于 两 
个 神经 元 之 间 的 连接 上 的 权重 值 本 身 并 没有 什么 实际 意义 。 而 对 于 决策 树 ， 我 们 只 须要 通 
过 观察 就 可 以 理解 其 推导 的 过 程 ， 我 们 甚至 还 可 以 将 其 转换 成 一 系列 简单 的 if-then 语句 。 


本 章 将 给 出 三 个 使 用 决策 树 的 本 第 一 个 例子 中 ， 我 们 向 大 家 示范 了 如 何 预 测 -一 

个 网 站 上 有 多 少 用 户 有 可 和 7 7 某 些 高 级 功能 而 支付 费用 。 许 多 在 线 应 用 都 是 以 会 

员 订 阅 的 方式 或 是 在 依 用 人 rm # at (on a pe SN is) 进行 定价 的 ， 它 们 为 用 户 提供 

了 一 种 付费 之 前 先 试用 的 .. aS 通常 会 提供 有 时 间 限制 的 免 

RE, RAEN AER AER 方式 的 站 点 则 有 可 能 会 为 用 

户 提供 一 个 免费 的 会 话 连接 Mlee seon) , ie wits AF 
MERN PNN 


RE 住房 价 机 区 来 自 Hot or Not 网 站 的 “热度 
(hotness)” IFOAM . N 

ai sae oth 
predicing cers 


Predicting SERPs 























URE 费 账 号 和 会 员 账号 
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为 了 解决 上 述 问题 ， 假 如 我 们 能 够 预测 出 一 位 用 户 成 为 付费 顾客 的 可 能 性 有 多 大 ， 那 将 是 
一 项 非常 有 价值 的 工作 。 到 目前 为 止 ， 我 们 已 经 知道 了 ， 可 以 利用 贝 叶 斯 分 类 器 或 神经 网 
络 来 完成 这 一 功能 。 然 而 在 这 里 ， 我 们 所 要 强调 的 是 算法 的 清晰 直观 一 一 如 果 我 们 知道 有 
哪些 因素 可 以 表明 用 户 将 会 成 为 付费 顾客 ， 那 么 就 可 以 利用 这 些 信息 来 指导 我 们 的 广告 策 
略 制定 工作 ， 让 网 站 的 某 些 功能 具有 更 好 的 可 用 性 ， 或 者 采取 其 他 能 够 有 效 增加 付费 顾客 
数量 的 策略 。 


此 处 , 假设 我 们 有 一 个 提供 免费 试用 的 在 线 应 用 。 用 户 为 了 获得 试用 的 机 会 而 注册 了 账号 ， 
待 使 用 了 若干 天 之 后 ， 他 们 可 以 选择 向 基本 服务 或 高 级 服务 升级 。 因 为 用 户 为 了 免费 试用 
须要 注册 账号 ， 所 以 我 们 可 以 借 此 将 用 户 的 相关 信息 收集 起 来 ， 并 且 在 试用 结束 的 时 候 ， 
网 站 的 所 有 者 会 记录 下 哪些 用 户 选择 了 成 为 付费 客户 。 


为 了 尽量 减少 用 户 的 工作 量 ， 使 其 能 够 尽快 地 注册 账号 ， 网 站 不 会 过 多 地 询问 用 户 的 个 人 
信息 ， 相 反 ， 它 会 从 服务 器 的 日 志 中 收集 这 些 信息 ， 比 如 : 用 户 来 自 哪 个 网 站 ， 所 在 的 地 
理 位 置 ， 以 及 他 们 在 注册 之 前 曾经 浏览 过 多 少 网 页 ， 等 等 。 假 设 我 们 收集 到 了 这 些 数 据 ， 
并 且 将 它们 填 入 一 张 表格 中 ， 其 结果 可 能 如 表 7-1 所 示 。 


表 7-1: 针对 某 个 Web 站 点 的 用 户 行为 及 其 最 终 购买 决策 
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Qa oer 


ws 
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Google Yes Premium 
Kiwitobes Yes Basic 
|e [wo A Rone 
aw x [þe ë a ë e 
Slashdot Yes None 
Kiwitobes France | Yes Basic 


我 们 将 上 述 信息 整理 到 一 个 由 一 行 行 数据 组 成 的 列表 里 ， 列 表 中 的 每 一 行 都 是 由 上 述 表 格 
中 各 栏 数据 构成 的 一 个 序列 。 其 中 的 最 后 一 栏 代表 了 用 户 是 否 已 经 注册 ， 而 这 个 “服务 ” 
栏 ， 正 是 我 们 希望 预测 的 内 容 。 请 新 建 一 个 名 为 treepredict.py 的 文件 ， 我 们 会 在 本 章 的 后 
续 部 分 一 直 使 用 该 文件 。 如 果 你 想 手工 输入 数据 ， 请 将 下 列 代 码 加 入 文件 的 首部 : 
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my data=[[‘'slashdot', 'USA', 'yes',18,"None'), 
{'google', 'France', 'yes',23,'Premium'], 
('digg', ‘USA', 'yes',24, 'Basic'], 
‘ie kiwitobes’, ‘France’, ‘yes’, 23, 'Basic' L 
['google', 'UK', 'no',21,'Premium'], 
[' (direct) ', 'New Senland”, ‘nat, 12, Milena" iy 
[* (direct), "UR 'no',21, Basic’), 
[*google’, ‘USA’, 'no’, 24, 'Premium'}, 
{'slashdot', ‘France’, 'yes',19,'None'], 
['digg', 'USA', 'no', 18, "None'], 
[*google', 'UK', 'no',18, 'None'], 
['kiwitobes’, 'UK','no',19, 'None'], 
['digg', 'New Zealand’, 'yes',12,'Basic'], 
['google', 'UK', 'yes',18, 'Basic'], 
['kiwitobes','France'’,'yes',19, 'Basic'] ] 


如 果 你 希望 下 载 事 先 准备 好 的 数据 集 ， 那 么 也 可 以 访问 http-/kiwitobes.com/tree/decision_ 
tree_example.txt, 


为 了 将 数据 文件 加 载 进来 ， 请 将 下 面 这 行 代码 加 入 treepredict py 的 首部 : 


my data=[line.split('’\t') for line in file('decision_tree_example.txt') ] 


现在 ， 我 们 已 经 掌握 了 用 户 相 关 的 信息 ， 包 括 : 用 户 所 在 的 位 置 ， 他 们 是 通过 哪些 网 站 访 
问 到 这 里 的 ， 以 及 他 们 在 注册 之 前 在 这 个 网 站 上 花费 了 多 少时 间 ; 我 们 只 须要 找到 一 种 方 
法 ， 能 够 将 一 个 合理 的 推测 值 填 人 “服务 ” 栏 即 可 。 


引入 决策 树 


Introducing L 


相 比 于 其 他 方法 , 决策 树 是 一 种 更 为 简单 的 机 器 学 习 方 法 。 它 是 对 被 观 而 数据 (observations) 
进行 分 类 的 一 种 相当 直观 的 方法 ， 决 策 树 在 经 过 训练 之 后 ， 看 起 来 就 像 是 以 树 状 形式 排列 
的 一 系列 if-then 语句 。 图 7-1 展示 了 一 个 利用 决策 树 对 水 果 进 行 分 类 的 例子 。 


一 旦 我 们 有 了 决策 树 ， 据 此 进行 决策 的 过 程 就 变 得 非常 容易 理解 了 。 只 要 沿 着 树 的 路 径 一 
直 向 下 ， 正 确 回答 每 一 个 同 题 ， 最 终 就 会 得 到 管 案 。 沿 着 最 终 的 叶 节 点 向 上 回溯 ， 我 们 就 
会 得 到 一 个 有 关 最 终 分 类 结果 的 推理 过 程 。 


本 章 我 们 将 着 手 考查 一 种 决策 树 的 表示 法 ， 我 们 会 编写 代码 ， 利 用 真实 数据 来 构造 决策 树 ， 
并 对 新 遇 到 的 观测 数据 进行 分 类 。 首 先 ， 我 们 来 构造 决策 树 的 表达 形式 。 请 新 建 一 个 类 ， 
取 名 为 decisionnode， 它 代表 树 上 的 每 一 个 节点 : 


class decisionnode: 
def _ init _ _(self,col=-1,value=None, results=None,tb=None, fb=None) : 
self.col=col 
self.value=value 
self.results=results 
self.tb=tb 
self.fb=fb 


f 


jecision Trees 


144 | 第 7 章 : 决策 树 建 模 


ww ai bbt. com DOO00000 


No Yes 


Watermelon 


No || Yes No || Yes No || Yes 


Banana (ameer seme) Ape Gape Nope 


No || Yes No || Yes 





Lemon Grapefruit Grape Cherry 
7-1: 决策 树 示 例 
每 一 个 节点 都 有 5 个 实例 变量 ， 这 5 个 变量 都 是 在 initializer 中 设置 的 。 
© col 是 待 检验 的 判断 条 件 (the criteria to be tested) 所 对 应 的 列 索引 值 。 


e value 对 应 于 为 了 使 结果 为 tue， 当 前 列 必 须 匹 配 的 值 。 


e tb 和 fb 也 是 decisionnode， 它 们 对 应 于 结果 分 别 为 true 或 false 时 ， 树 上 相对 于 当 
前 节点 的 子 树 上 的 节点 。 


e results 保存 的 是 针对 于 当前 分 支 的 结果 ， 它 是 一 个 字典 。 除 时 节点 外 ， 在 其 他 节点 
上 该 值 都 为 None。 


构造 决策 树 的 函数 将 会 返回 一 个 根 节点 ， 我 们 可 以 沿 着 它 的 True 分 支 或 False 分 支 一 直 遍 
历 下 去 ， 直 至 到 达 最 终结 果 为 止 。 


对 树 进行 训练 
Training the Tree 


本 章 我 们 将 使 用 一 种 叫做 CART (Classification and Regression Trees 的 缩写 , 即 分 类 回归 树 ) 
的 算法 。 为 了 构造 决策 树 ， 算 法 首先 创建 一 个 根 节 点 。 然 后 通过 评估 表 中 的 所 有 观测 变量 ， 
从 中 选 出 最 合适 的 变量 对 数据 进行 拆 分 。 为 此 ， 算 法 考查 了 所 有 不 同 的 变量 ， 然 后 从 中 选 
出 一 个 条 件 〈 比 如 :“ 用 户 是 否 读 过 了 FAQ? ”) 对 结果 数据 进行 分 解 ， 以 使 我 们 能 更 容易 
地 推测 出 用 户 的 意图 来 (用 户 会 因 哪 一 项 服务 而 注册 账号 )。 


PAM divideset 的 作用 是 根据 列表 中 某 一 栏 的 数据 将 列表 拆 分 成 两 个 数据 集 。 该 函数 接受 
一 个 列表 ， 一 个 指示 表 中 列 所 在 位 置 的 数字 ， 和 一 个 用 以 对 列 进行 拆 分 的 参考 值 作为 参数 。 
LA “Read FAQ” 为 例 ， 可 能 的 取 值 有 Yes 或 No， 而 对 于 “Referrer” 而 言 ， 则 会 有 很 多 可 
能 的 取 值 。 随 后 ， 算 法 会 返回 两 个 列表 : 第 一 个 列表 所 包含 的 数据 行 ， 其 指定 列 中 的 数据 
将 会 与 我 们 先前 指定 的 参考 值 相 匹配 ， 而 第 二 个 列表 ， 则 包含 了 与 参考 值 不 相 匹 配 的 剩余 
数据 行 。 
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# 在 业 一 列 上 对 数据 集合 进行 拆 分 ， 能 够 处 理 数值 型 数据 或 名 词性 数据 。 
def divideset (rows,column,value): 
# RLSM, 邻 其 告诉 我 们 数据 行 属于 第 一 组 (返回 值 为 true) 还 是 第 二 组 (返回 值 为 false) 
split function=None 
if isinstance(value,int) or isinstance (value,float): 
split_function=lambda row: row[column] >=value 
else: 
split _function=lambda row: row[column]==value 


# 将 数据 集 拆 分 成 两 个 集合 ， 并 返回 

setl=[row for row in rows if split function(row)] 
set2=[row for row in rows if not split_function (row) ] 
return (setl,set2) 


上 述 代 码 创建 了 一 个 名 为 split_function 的 函数 ， 该 函数 根据 数据 集 的 类 型 (是 否 是 数 
值 型 )， 对 其 进行 拆 分 。 如 果 数 据 是 数值 型 的 ，split function 函数 就 会 根据 “true” 的 
判断 条 件 ， 判 断 指定 列 中 的 数值 是 否 大 于 参考 值 。 如 果 数 据 不 是 数值 型 的 ， 则 函数 只 会 判 
断 指定 列 中 的 数值 是 否 与 参考 值 相等 。 我 们 利用 该 函数 将 数据 拆 分 成 了 两 个 集合 ， 其 中 一 
个 是 split_function 函数 返回 true 时 的 集合 ， 另 一 个 则 是 返回 false 时 的 集合 。 


请 启动 Python 会话， 尝试 按 “Read FAQ” 列 对 结果 进行 拆 分 : 


$ python 

>>> import treepredict 

>>> treepredict .divideset (treepredict.my data,2,'yes') 

({{*slashdot', 'USA', ‘yes', 18, 'None'], ['google', ‘France’, ‘yes', 23, 
‘Premium'],...]] 

[ ['google the ', 'UK', 'no', 21, 'Premium'], ['(direct)', 'New Zealand', 'no', 
12; "None? je] 


# 7-2 给 出 了 拆 分 的 结果 
表 7-2: BF “Read FAQ” 列 的 拆 分 结果 






人 nae SEA 

None Premium 

Premium None 

Basic Basic 

Basic Premium 

None None 

Basic None 

Basic None 


目前 看 来 ， 拆 分 结果 所 选用 的 变量 并 不 是 很 理想 ， 因为 两 边 似乎 都 混杂 了 各 种 情况 。 我 们 
需要 一 种 方法 来 选择 最 合适 的 变量 。 
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选择 最 合适 的 拆 分 方案 
Choosing the Best Split 


对 于 前 述 的 观测 数据 而 言 ， 我 们 所 选择 的 变量 不 是 非常 的 理想 ,这 一 点 也 许 并 无 大 碍 ， 但 
是 从 软件 解决 方案 的 角度 而 言 ， 为 了 选择 合适 的 变量 ， 我 们 需要 一 种 方法 来 衡量 数据 集合 
中 各 种 因素 的 混合 情况 。 我 们 所 要 做 的 ， 就 是 找 出 合适 的 变量 ， 使 得 生成 的 两 个 数据 集合 
在 混杂 程度 上 能 够 尽 可 能 小 。 首 先 ， 我们 需要 一 个 函数 来 对 数据 集合 中 的 每 一 项 结果 进行 
计数 。 请 将 下 列 函 数 加 入 treepredict.py P: 


E 对 各 种 可 能 的 结果 进行 计数 (每 一 行 数据 的 最 后 一 列 记录 了 这 一 计数 结果 ) 
def uniquecounts (rows): 
results={} 
for row in rows: 
# 计数 结果 在 最 后 一 列 
r=row[len(row)-1] 
if r not in results: results[r]=0 
results[r)+=1 
return results 


国 数 uniquecounts 的 作用 是 找 出 所 有 不 同 的 可 能 结果 ， 并 返回 一 个 字典 ， 其 中 包含 了 每 
一 项 结果 的 出 现 次 数 。 其 他 银 数 将 利用 该 函数 来 计算 数据 集合 的 混杂 程度 。 对 于 混杂 程度 
的 测度 ， 有 几 种 不 同 的 度量 方式 可 供 选 择 ， 此 处 我 们 将 考查 其 中 的 两 种 : 基尼 不 纯度 (Gini 
impurity) #04 (entropy). 


基尼 不 纯度 


Gint Impurity 


基尼 不 纯度 ， 是 指 将 来 自 集合 中 的 某 种 结果 随机 应 用 于 集合 中 某 一 数据 项 的 预期 误差 率 。 
如 果 集 合 中 的 每 个 数据 项 都 属于 同一 分 类 ， 那 么 推测 结果 总 会 是 正确 的 ， 因 而 此 时 的 误差 
率 为 0。 如 果 有 4 种 可 能 的 结果 均匀 地 分 布 在 集合 内 ,， 则 推测 有 75% 的 可 能 是 不 正确 的 ， 
而 此 时 的 误差 率 为 0.75。 


基尼 不 纯度 的 计算 函数 如 下 所 示 : 


# 随机 放置 的 数据 项 出 现 于 错误 分 类 中 的 概率 
def giniimpurity (rows): 
total=len (rows) 
counts=uniquecounts (rows) 
imp=0 
for kl in counts: 
pl=float (counts[k1])/total 
for k2 in counts: 
if kl==k2: continue 
p2=float (counts[k2]) /total 
imp+=p1*p2 
return imp 


该 函数 利用 集合 中 每 一 项 结果 出 现 的 次 数 除 以 集合 的 总 行 数 来 计算 相应 的 概率 ， 然 后 将 所 
有 这 些 概 率 值 的 乘积 累加 起 来 。 这 样 就 会 得 到 某 一 行 数据 被 随机 分 配 到 错误 结果 的 总 概率 。 
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这 一 概率 的 值 越 高 ， 就 说 明 对 数据 的 拆 分 越 不 理想 。 概 率 值 为 0 则 代表 拆 分 的 结果 非常 理 
想 ， 因 为 这 说 明了 每 一 行 数据 都 已 经 被 分 配 到 了 正确 的 集合 中 。 


Entropy 


TEA PRC, HAAR ZEAE RAD ICE EM BEA LE A FTE TRA 
混杂 程度 。 请 将 下 列 函数 加 入 treepredict.py 中 : 


E ATRA RAT Ets RZE HASH p(x) log(p(x)) 之 和 
def entropy (rows): 
from math import log 
log2=lambda x:log(x)/log(2) 
results=uniquecounts (rows) 
# Sas BH 
ent=0.0 
for r in results.keys(): 
pefloat (results{r]) /len(rowa) 
ent=ent-p*log2 (p) 
return ent 


函数 entropy 计算 了 每 一 项 数据 出 现 的 频率 〈 即 数据 项 出 现 的 次 数 除 以 集合 的 总 行 数 ) HF 
使 用 了 如 下 公式 : 


p(i) = frequency(outcome) = count(outcome) / count(total rows) 


Entropy = 针对 所 有 结果 的 phi) x iogp( 动 之 和 


这 是 一 种 衡量 结果 之 间 差 异 程度 的 测度 方法 。 如 果 所 有 结果 都 相同 (比如 说 ， 如 果 我 们 够 
幸运 的 话 ， 所 有 人 最 终 都 成 为 了 付费 订户 ) MAA 0. BEH (groups) 越 是 混乱 ， 相 应 的 
HIRREN. BAT TA BEG BTR AG oy A TL, F R A A BS IH 


请 在 你 的 Python Zi 4y Hise ik — PMG Je AS AML BE A PN BP IE TH: 


>>> reload(treepredict) 

<module 'treepredict' from 'treepredict.py'> 

>>> treepredict.giniimpurity(treepredict.my data) 
0.6328125 

>>> treepredict.entropy(treepredict.my data) 
1.5052408149441479 

>>> setl,set2=treepredict.divideset (treepredict.my data,2,'yes') 
>>> treepredict.entropy (setl) 

1.2987949406953985 

>>> treepredict.giniimpurity (set1) 

0.53125 


MANERA ZAI ER KBE T, MABE, RE, RT ite 
ALRAM “ATI” EERE RH, HPAP EE Oi, Aa Seas H 
ERFARER, AERATOR EAR BS JE 7 AE aE AE 
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以 递归 方式 构造 权 
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为 了 和 弄 明 白 一 个 属性 的 好 坏 程 度 ， 我 们 的 算法 首先 求 出 整个 群 组 的 燃 ， 然 后 尝试 利用 每 个 
属性 的 可 能 取 值 对 群 组 进行 拆 分 ， 并 求 出 两 个 新 群 组 的 炉 。 为 了 确定 哪个 属性 最 适合 用 来 
拆 分 ， 算 法 会 计算 相应 的 信息 增益 (Information gain)。 所 谓 信息 增益 ， 是 指 当前 炉 与 两 个 
新 群 组 经 加 权 平 均 后 的 炳 之 间 的 差 值 。 算 法 会 针对 每 个 属性 计算 相应 的 信息 增益 ， 然 后 从 
中 选 出 信息 增益 最 大 的 属性 。 


待 根 节点 处 的 判断 条 件 确定 之 后 ， 算 法 会 根据 该 条 件 返 回 的 rue 或 false， 分 别 建立 两 个 分 
支 ， 如 图 7-2 所 示 。 


Yes 


Google, France, yes, 23, Premium Slashdot, USA, yes, 18, None 
9 sab aad Slashdot, France, yes, 19,None 
tobes,France, yes, 23 Basic Slashdot,UK,no,21,None 

Digg, USA,no, 18, None 


图 7-2: 经 过 一 次 拆 分 之 后 的 决策 树 





算法 将 观测 数据 拆 分 成 了 两 个 组 ， 其 中 一 组 符合 判断 条 件 ， 另 一 组 则 与 判断 条 件 不 符 。 对 
于 每 个 分 支 ， 算 法 随后 会 判断 是 否 要 对 其 做 进一步 的 拆 分 ， 或 者 我 们 已 经 获得 了 一 个 明确 
的 结论 而 无 须 再 行 拆 分 了 。 如 果 某 个 新 分 支 可 以 被 继续 拆 分 ， 算 法 就 会 使 用 与 上 面 同样 的 
方法 来 确定 接 下 来 到 底 应 该 选用 哪 一 个 变量 。 第 二 次 拆 分 的 情况 如 图 7-3 所 示 。 





图 7-3: 经 过 二 次 拆 分 之 后 的 决策 树 


通过 计算 每 个 新 生 节点 的 最 佳 拆 分 属性 ， 对 分 支 的 拆 分 过 程 和 树 的 构造 过 程 会 不 断 地 持续 
下 去 。 当 拆 分 某 个 节点 所 得 的 信息 增益 不 大 于 0 的 时 候 ， 对 分 支 的 拆 分 才 会 停止。 


请 在 treepredict py 中 新 建 一 个 函数 buildtree。 这 是 一 个 递归 函数 ， 它 通过 为 当前 数据 集 
选择 最 合适 的 拆 分 条 件 来 实现 决策 树 的 构造 过 程 ; 
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def buildtree{rows,scoref=entropy): 
if len(rows)==0: return decisionnode () 
current_score=scoref (rows) 


# 定义 一 些 变量 以 记录 最 住 拆 分 条 件 
best_gain=0.0 
best_crjteria=None 
best_sets=None 


column _count=len(rows[0])-1 
for col in range (0,column: count): 
# 在 当前 列 中 生成 一 个 由 不 同 值 构成 的 序列 
column_values={} 
for row in rows: 
column_values[row[col]}]=1 
# EF RRER—A PHRASE, ERRERA 
for value in column_values.keys(): 
(setl, set2)=divideset (rows, col, value) 


# 信息 增益 
p=float (len (set1))/len (rows) 
gain=current score-p*scoref (setl)-(1-p) *scoref (set2) 
if gain>best_gain and len(set1l)>0 and len(set2)>0; 
best_gain=gain 
best_criteria=(col, value) 
best _sets=(setl,set2) 
# 创建 子 分 支 
if best_gain>0: 
trueBranch=buildtree (best _sets[0}) 
falseBranch=buildtree(best_sets[1]) 
return decisionnode(col=best_criteria[0],value=best_criteria[1], 
tb=trueBranch, fb=falseBranch) 
else: 
return decisionnode (results=uniquecounts (rows) ) 


上 述 函 数 首先 接受 一 个 由 数据 行 构成 的 列表 作为 参数 。 它 遍历 了 数据 集中 的 每 一 列 〈 最 后 
一 列 除 外 ， 因 为 那 是 用 来 存放 最 终结 果 的 ) ， 针 对 各 列 查找 每 一 种 可 能 的 取 值 ， 并 将 数据 集 
拆 分 成 两 个 新 的 子 集 。 通 过 将 每 个 子 集 的 科 乘 以 子 集中 所 含 数 据 项 在 原 数据 集中 所 占 的 比 
重 (fraction) ， 函 数 求 出 了 每 一 对 新 生成 子 集 的 加 权 平均 箭 ， 并 记录 下 坑 值 最 低 的 那 一 对 子 
集 。 


如 果 由 坑 值 最 低 的 一 对 子 集 求 得 的 加 权 平均 箭 比 当前 集合 的 箭 要 大 ， 则 拆 分 过 程 就 结束 了 ， 
针对 各 种 可 能 结果 的 计数 所 得 将 会 被 保存 起 来 。 否 则 ， 算 法 就 会 在 新 生成 的 子 集 上 继续 调 
用 buildtree 函数 ， 并 把 调用 所 得 的 结果 添加 到 树 上 。 我 们 把 针对 每 个 子 集 的 调用 结果 分 
别 附 加 到 节点 的 True 分 支 和 False 分 支 上 ， 最 终 整 棵 树 就 这 样 构造 出 来 了 。 
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现在 ， 我 们 可 以 将 算法 最 终 应 用 到 整个 原始 数据 集 上 了 。 上述 代 码 足 够 灵活 ， 它 可 以 同时 
处 理 文本 型 数据 和 数值 型 数据 。 代 码 还 假定 了 数据 集 的 最 后 一 行 〈 译 注 1) 对 应 于 目标 值 ， 
因此 我 们 只 要 简单 地 将 数据 集 传 进去 ， 就 可 以 构造 出 决策 树 来 : 


>>> reload(treepredict) 
<module 'treepredict' from ‘treepredict.py'> 
>>> tree=treepredict.buildtree (treepredict.my data) 


现在 ， 变 量 tree 中 保存 着 一 个 经 过 训练 的 决策 树 。 稍 后 我 们 将 会 学 习 如 何 对 树 进行 浏览 ， 
以 及 如 何 借 此 来 做 出 预测 。 


决策 树 的 显示 
Displaying the | ret 
既然 我 们 已 经 得 到 了 一 棵 决策 树 ， 下 一 步 应 该 如 何 处 置 它 呢 ?或 许 有 一 件 事 你 一 定 会 想到 
要 做 的 ， 那 就 是 树 的 浏览 。 下 面 的 printtree 是 一 个 以 纯 文本 方式 显示 树 的 简单 函数 。 虽 
然 输 出 结果 不 是 很 美观 ， 但 是 对 于 显示 节点 不 太 多 的 树 而 言 ， 这 不 失 为 一 种 简单 的 办 法 : 
def printtree(tree,indent=''): 
# 这 是 一 个 叶 节 点 吗 ? 
if tree.results!=None: 
print str(tree.results) 


se: 
# 4r Ep P| eH 


print str(tree.col)+':'’+str(tree.value)+'? ' 


# 打印 分 支 

print indent+'T->', 

printtree(tree.tb,indent+' ') 

print indent+'F->', 

printtree(tree.fb,indent+’ ') 
这 又 是 一 个 递归 函数 。 它 接受 buildtree RANMMFASK, ARAMA Pi, K 
数 到 达 一 个 包含 结果 信息 的 节点 时 ， 它 就 知道 已 经 达到 了 一 个 分 支 的 末端 。 此 时 ， 它 就 会 
打印 出 针对 True 分 支 和 False 分 支 的 判断 条 件 ， 并 针对 每 个 分 支 递 归 调用 printtree。 每 
调用 一 次 ， 缩 排 字 符 串 就 增加 一 格 。 


请 针对 我 们 前 面 刚 刚 构造 好 的 树 ， 调 用 此 函数 ， 我 们 将 得 到 如 下 结果 : 


>>> reload(treepredict) 
>>> treepredict.printtree (tree) 
0:google? 
T=-> 3:21? 
T-> {"Premium': 3} 
F-> 2:yes? 
T-> "Basic": 1} 


el 


F-> {'None': 1} 
lashdot? 
'None': 3} 
:yes? 
{'Basic': 4} 
37212 

T-> (Basie: 1) 
F-> {"None‘;: 3} 


F-> O:s 
T-> { 
F-> 2 
-> 
-> 


T 
F 


译注 1: 此 处 原文 的 意思 是 最 后 一 行 ， 但 根据 上 下 文 译 者 认为 是 指 最 后 一 列 。 
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这 是 决策 树 在 尝试 生成 新 的 分 类 时 执行 推理 过 程 的 一 个 可 视 化 表达 。 位 于 根 节 点 处 的 判断 
RAE “Google 在 第 0 列 吗 ?“。 如 果 这 一 条 件 满 足 ， 那 么 算法 就 会 走 T-> 分 支 ， 并 判断 任 
何 通过 Google 来 到 这 里 的 使 用 者 ， 如 果 他 们 浏览 的 网 页 个 数 已 经 达到 或 超过 了 21 个 ， 则 
将 成 为 付费 订户 。 如 果 条 件 不 满足 ， 那 么 算法 就 会 跳 到 F-> 分 支 ， 并 对 条 件 “Slashdot 在 第 
0 列 吗 ? ”进行 评估 。 这 一 过 程 会 一 直 持续 下 去 , 直到 算法 到 达 一 个 包含 最 终结 果 的 分 支 为 
止 。 正 如 我 们 先前 提 到 过 的 ， 能 够 直观 地 看 到 隐藏 在 推理 过 程 背后 的 逻辑 ， 是 决策 树 的 一 
大 优势 。 


图 形 显示 方式 


aye Pyeceyiay 

~ ~ "ah 7 *~ I ty 

n ALET LEDA y 
i + 


文本 显示 方式 对 于 节点 不 太 多 的 树 而 言 是 可 行 的 ， 但 是 随 着 树 的 规模 逐渐 变 大 ， 以 这 样 的 
可 视 化 形式 来 跟踪 我 们 在 树 上 所 走 的 路 径 可 能 是 非常 困难 的 。 此 处 ， 我 们 将 会 看 到 树 的 一 
种 图 形 化 表现 形式 ， 对 于 浏览 本 章 后 续 部 分 将 要 构造 的 决策 树 而 言 这 种 方式 将 会 是 非常 有 
用 的 。 


绘制 树 的 代码 与 第 3 章 中 绘制 树 状 图 (dendrograms) 的 代码 是 类 似 的 。 两 者 都 涉及 了 绘制 
具有 任意 深度 节点 的 二 又 树 ， 因 此 我 们 首先 须要 编写 国 数 来 确定 ， 一 个 给 定 节点 要 占据 多 
少 空间 一 一 包括 所 有 子 节点 的 总 宽度 ， 以 及 节点 所 要 到 达 的 深度 值 ， 后 者 告诉 我 们 ， 为 了 
能 够 容纳 所 有 分 支 ， 节 点 在 垂直 方向 上 所 需要 的 空间 。 一 个 分 支 的 总 宽度 等 于 其 所 有 子 分 
支 的 宽度 之 和 ， 而 如 果 节 点 没有 子 分 支 的 话 ， 则 对 应 宽度 为 1: 

def getwidth (tree): 


if tree.tb==None and tree.fb==None: return 1 
return getwidth (tree.tb)+getwidth (tree. fb) 


AS KTR EEF FORA TI SLR EE 1 


def getdepth (tree): 
if tree.tb==None and tree.fb==None: return 0 
return max (getdepth (tree.tb),getdepth (tree.fb))+1 


为 了 将 树 真正 绘制 出 来 ,我 们 还 须要 安装 Python Imaging Library。 可 以 从 http;//pythonware. 
com 处 下 载 到 该 库 , 附录 A 包含 有 关于 安装 该 库 的 更 多 信息 。 请 将 下 列 import 语句 添加 到 
treepredict.py 文件 的 首部 : 


from PIL import Image, ImageDraw 


HR drawtree 为 待 绘制 的 树 确定 出 一 个 合理 的 尺寸 ， 并 设置 好 画布 (canvas)。 然 后 将 画 
布 和 树 的 根 节 点 传递 给 drawnode。 请 将 该 函数 添加 到 treepredict.py tF; 


def drawtree (tree,jpeg='tree.jpg'): 
w=getwidth (tree) *100 
h=getdepth (tree) *100+120 


img=Image.new('RGB', (w,h), (255,255,255) } 
draw=ImageDraw. Draw (img) 


drawnode (draw, tree,w/2,20) 
img.save (jpeg, 'JPEG') 
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函数 drawnode 实际 用 于 绘制 决策 树 的 节点 。 它 以 递归 的 方式 工作 ,首先 绘制 当前 节点 ,并 
计算 子 节 点 的 位 置 ， 然 后 在 每 个 子 节点 上 再 次 调用 drawnode 。 请 将 该 函数 添加 到 
treepredict.py "P ; 


def drawnode (draw,tree,x,y): 
if tree.results==None: 
# 得 到 每 个 分 支 的 宽度 
wl=getwidth (tree. fb) *100 
w2=getwidth (tree.tb) *100 


# 确定 此 节点 所 要 占据 的 总 空间 
left=x- (wli+w2) /2 
right=x+ (wl+w2) /2 


E RMA MARAT HF 


draw.text ((x-20, y-10),str(tree.col)+':'+str(tree.value), (0,0,0)) 


# 绘制 到 分 支 的 连 线 
draw. line ((x,y,left+w1l/2,y+100),fill=(255,0,0)) 
draw. line( (x,y, right-w2/2, y+100), fill=(255,0,0)) 


# 绘制 分 支 的 节点 
drawnode (draw,tree.fb,1eft+w1l172,Yy+1l100) 
drawnode (draw, tree.tb, right-w2/2, y+100) 
else: 
txt=' \n'.join(('ts:%d'tv for v in tree.results.items()]) 
draw.text((x-20,y),txt, (0,0,0)) 


现在 ， 我 们 可 以 尝试 在 自己 的 Python 会 话 中 将 当前 的 树 绘制 出 来 了 : 


>>> reload(treepredict) 
<module 'treepredict' from 'treepredict.pyc'> 
>>> treepredict.drawtree (tree, jpeg='treeview. jpg') 


上 述 命令 的 执行 结果 应 该 会 生成 一 个 名 为 treeviewjpg 的 新 文件 ， 如 下 页 图 7-4 所 示 。 


此 处 ， 代 码 并 没有 打印 出 True 分 支 和 False 分 支 的 标签 ， 在 更 为 复杂 的 图 中 ， 这 些 标签 可 
能 只 会 造成 布局 的 混乱 。 由 于 在 生成 的 图 上 ，Tme 分 支 总 是 位 于 右 侧 ， 因 此 我 们 可 以 按 图 
索 怠 ， 很 容易 地 跟踪 推断 的 过 程 。 


对 新 的 观测 数据 进行 分 类 
Classifying New Observations 


目前 ， 我 们 还 需要 一 个 函数 ， 接 受 新 的 观测 数据 作为 参数 ， 然 后 根据 决策 树 对 其 进行 分 类 。 
请 将 该 函数 添加 到 treepredict.py 中 : 


def classify (observation, tree): 
if tree.results!=None: 
return tree.results 
else: 
v=observation[tree.col] 
branch=None 
if isinstance(v,int) or isinstance(v, float): 
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7-4: 用 于 预测 订户 的 决策 树 


if v>=tree.value: branch=tree.tb 
else: branch=tree.fb 

else: 
if v==tree.value: branch=tree.tb 
else: branch=tree.fb 

return classify (observation, branch) 


该 函数 采用 与 printtree 完全 相同 的 方式 对 树 进行 遍历 。 在 每 次 调用 之 后 ， 销 数 会 根据 调 
用 结果 来 判断 是 否 到 达 分 支 的 末端 。 如 果 尚 未 到 达 末 端 ， 它 会 对 观测 数据 作出 评估 ， 以 确 
认 列 数据 是 否 与 参考 值 相 匹 配 。 如 果 匹 配 ， 则 会 再 次 在 Tue 分 支 上 调用 classify， 如 果 
不 匹配 ， 则 会 在 False 分 支 上 调用 classify。 


现在 ， 我 们 可 以 调用 classify 函数 ， 对 新 的 观测 数据 进行 预测 了 : 


>>> reload(treepredict) 

<module ‘treepredict' from 'treepredict.pyc'> 

>>> treepredict.classify(['(direct)', 'USA','yes',5],tree) 

{'Basic': 4} 
至 此 ， 我 们 已 经 拥有 了 能 够 从 任何 数据 集中 构造 决策 树 的 函数 ， 显 示 和 解释 决策 树 的 函数 ， 
以 及 对 新 的 观测 数据 进行 分 类 的 函数 。 我 们 可 以 将 这 些 函 数 应 用 到 任何 形式 的 数据 集 上 ， 
只 要 数据 集 是 由 多 个 数据 行 组 成 ,并 且 每 一 行 数据 都 包含 一 组 观测 变量 和 一 个 结果 值 即 可 。 


RPT BT 


Pruning the Tree 
利用 前 述 方法 来 训练 决策 树 会 有 一 个 问题 ， 那 就 是 决策 树 可 能 会 变 得 过 度 拟 合 (overfitted) 
一 一 也 就 是 说 ， 它 可 能 会 变 得 过 于 针对 训练 数据 。 专 门 针 对 训练 集 所 创建 出 来 的 分 支 ， 其 
焙 值 与 真实 情况 相 比 可 能 会 有 所 降低 ， 但 决策 树 上 的 判断 条 件 实际 上 是 完全 随意 的 ， 因 此 
一 棵 过 度 拟 合 的 决策 树 所 给 出 的 答案 也 许 会 比 实际 情况 更 具 特 殊 性 。 
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真实 世界 里 的 决策 树 


由 于 决策 树 具 有 易于 解释 的 特点 ， 因 此 它 是 商务 分 析 、 医 疗 决策 和 政策 制定 领域 里 应 用 
最 为 广泛 的 数据 挖 据 方 法 之 一 。 通常 ， 决 策 树 的 构造 是 自动 进行 的 ， 专 家 们 可 以 利用 生 
成 的 决策 树 来 理解 问题 的 某 些 关键 因素 ， 然 后 对 其 加 以 改进 ， 以 便 更 好 地 与 他 的 观点 相 


匹配 。 这 一 过 程 允 许 机 器 协助 专家 进行 决策 ， 并 清晰 地 展示 出 推导 的 路 径 ， 从 而 我 们 可 
以 据 此 来 判断 预测 的 质量 。 


如 今 ， 决 策 树 以 这 样 的 形式 被 广泛 运用 于 众多 应 用 系统 之 中 ， 其 中 就 包括 了 顾客 调查 、 
金融 风险 分 析 、 辅 助 诊断 和 交通 预测 。 





因为 前 述 算法 直到 无 法 再 进一步 降低 丧 的 时 候 才 会 停止 分 支 的 创建 过 程 ， 所 以 一 种 可 能 的 
解决 办 法 是 ， 只 要 当 粒 少 的 数量 小 于 某 个 最 小 值 时 ， 我 们 就 停止 分 支 的 创建 。 这 种 策略 
时 常 被 人 们 采用 ,但 是 它 有 一 个 小 小 的 缺陷 一 一 我 们 有 可 能 会 遇 到 这 样 的 数据 集 : 某 一 次 
分 支 的 创建 并 不 会 令 炉 降低 多 少 ， 但 是 随后 创建 的 分 支 却 会 使 粮 大 幅 降 低 。 对 此 ， 一 种 替 
代 的 策略 是 ， 先 构造 好 如 前 所 述 的 整 棵 树 ， 然 后 再 尝试 消除 多 余 的 节点 。 这 个 过 程 就 是 前 
枝 。 


藤 枝 的 过 程 就 是 对 具有 相同 父 节 点 的 一 组 节点 进行 检查 ， 判 断 如 果 将 其 合并 ， 炳 的 增加 量 
是 否 会 小 于 某 个 指定 的 交 值 。 如 果 确 实 如 此 ， 则 这 些 叶 节点 会 被 合并 成 一 个 单一 的 节点 ， 
合并 后 的 新 节点 包含 了 所 有 可 能 的 结果 值 。 这 种 做 法 有 助 于 避免 过 度 拟 合 的 情况 ， 也 使 得 
根据 决策 树 作出 的 预测 结果 ， 不 至 于 比 从 数据 集中 得 到 的 实际 结论 还 要 特殊 。 


请 将 用 于 剪 枝 的 新 函数 添加 到 treepredict.py 中 : 


def prune (tree,mingain): 
# 和 如果 分 支 不 是 叶 节 点 ， 则 对 其 进行 前 枝 操 作 
if tree.tb.results==None: 
prune (tree.tb,mingain) 
if tree. fb.results==None: 
prune (tree. fb,mingain) 





# 如 果 两 个 子 分 支 都 是 叶 节 点 ， 则 判断 它们 是 否 须要 合并 
if tree.tb.results!=None and tree.fb.results!=None: 
# 构造 合并 后 的 数据 集 
tb, fpb=[]，[] 
for v,c in tree.tb.results.items(): 
tb+=[[v]]*c 
for VC in tree. fb.results.items(): 
fb+=[[v]]*c 


# 检查 粹 的 减少 情况 
delta=entropy (tb+fb) - (entropy (tb) +entropy (fb) /2) 
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if delta<mingain: 
# 合并 分 支 
tree.tb,tree.fb=None,None 
tree.results=uniquecounts (tb+fb) 


“RR AA LEAR, ARR Pie RSH ARI 
Aib. PAPAS A EE RA TE TTT Be, RYT eT ET 
ik, ARATE tb mingain 参数 指定 的 值 ， 则 叶 节点 将 会 被 删除 ， 并 且 相 应 的 结果 值 
也 将 被 全 部 移 人 父 节点 。 随 后 ， 合 并 而 成 的 新 节点 也 可 能 成 为 删除 对 象 ， 以 及 与 其 他 节点 
的 合并 对 象 。 


针对 当前 数据 集 ， 请 尝试 调用 上 述 函 数 ， 看 看 是 否 有 节点 会 被 合并 : 


>>> reload (treepredict) 
<module 'treepredict' from ‘treepredict.pyc'> 
>>> treepredict.prune(tree,0.1) 
>>> treepredict.printtree (tree) 
0:google? 
T=3 D213 
T-> {'Premium’: 3} 
F-> 2: yes? 
T-> {'Basic': 1} 
F-> {'None': 1} 
0:slashdot? 
-> {'None': 3} 
> 
下 SC 


T> {*Basic’: 1} 
F-> {'None'; 3} 
>>> treepredict.prune(tree,1.0) 
>>> treepredict.printtree (tree) 
0:google? 
T= 33217 
T-> {'Premium': 3} 
F-> 2:yes? 
T-> {*Basic': 1} 
F-> {'None’: 1} 
F-> {'None': 6, 'Basic': 5} 


在 这 个 例子 中 , 数据 的 拆 分 非常 容易 ， 因 此 根据 一 个 合理 的 最 小 增益 值 (minimum gain) iH 
行 剪 枝 ， 实 际 上 并 没有 多 少 工作 量 。 只 有 当 我 们 将 最 小 增益 值 调 得 非常 高 的 时 候 ， 某 个 叶 
节点 才 会 被 合并 。 正 如 我 们 稍 后 会 看 到 的 ， 现 实 中 数据 集 的 拆 分 往往 不 会 像 这 个 例子 中 那 
样 的 干脆 利落 ， 因 此 在 那样 的 场合 下 ， 剪 枝 的 效果 往往 会 更 加 的 明显 。 


处 理 缺 失 数据 
Dealing with Missing Data 


除了 易于 解释 外 ， 决 策 树 还 有 一 个 优点 ， 就 是 它 处 理 缺 失 数据 的 能 力 。 我 们 所 使 用 的 数据 
集 也 许 会 缺失 某 些 信息 一 一 比如 ， 在 当前 的 例子 中 ， 用 户 的 地 理 位 置 未 必 能 够 从 其 IP 地 址 
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中 识别 出 来 ， 所 以 这 一 字段 也 许 会 为 室 。 为 了 使 决策 树 能 够 处 理 这 种 情况 ， 我 们 须要 实现 
一 个 新 的 预测 函数 。 


如 果 我 们 缺失 了 某 些 数 据 ， 而 这 些 数据 是 确定 分 支 走 向 所 必需 的 ， 那 么 实际 上 我 们 可 以 选 
择 两 个 分 支 都 走 。 不 过 ， 此 处 我 们 不 是 平均 地 统计 各 分 支 对 应 的 结果 值 ， 而 是 对 其 进行 加 
权 统计 。 在 一 棵 基本 的 决策 树 中 ， 所 有 节点 都 隐 含 有 一 个 值 为 1 的 权重 ， 即 观测 数据 对 于 
数据 项 是 否 属于 某 个 特定 分 类 的 概率 具有 百分之百 的 影响 。 而 如 果 要 走 多 个 分 支 的 话 ， 那 
么 我 们 可 以 给 每 个 分 支 赋 以 一 个 权重 ， 其 值 等 于 所 有 位 于 该 分 支 的 其 他 数据 行 所 占 的 比重 。 


实现 上 述 功能 的 函数 ，mdclassifty， 是 对 classify 的 一 个 简单 修改 。 请 将 它 添加 到 
treepredict.py 中 : 


def mdclassify(observation, tree): 
if tree.results!=None: 
return tree.results 
else: 
v=observation([(tree.col] 
if v==None: i 
tr, fr=mdclassify (observation, tree.tb) ,mdclassify (observation, tree. fb) 
tcount=sum(tr.values () ) 
fcount=sum(fr.values()) 
tw=float (tcount) / (tcount+fcount) 
fw=float (fcount) / (tcount+fcount) 
result={} 
for k,v in tr.items(): result[k]=v*tw 
for k,v in fr.items(): 
if k not in result: result[k]=0 
result[k] += v*fw 
return result 
else: 
if isinstance(v,int) or isinstance(v,float): 
if v>=tree.value: branch=tree.tb 
else: branch=tree.fb 
else: 
if v==tree.value: branch=tree.tb 
else: branch=tree.fb 
return mdclassify (observation, branch) 


mdclassify 与 classify 相 比 ， 唯 一 的 区 别 在 于 末尾 处 : 如 果 发 现 有 重要 数据 缺失 ， 则 每 
个 分 支 的 对 应 结果 值 都 会 被 计算 一 遍 ， 并 且 最 终 的 结果 值 会 乘 以 它们 各 自 的 权重 。 


针对 关键 信息 缺失 的 数据 行 ， 我 们 来 尝试 运行 一 下 mdclassify， 看 看 最 终 的 结果 如 何 : 


>>> reload (treepredict) 

<module 'treepredict' from 'treepredict.py'> 

>>> treepredict.mdclassify(['google' ,None, 'yes' ,None] , tree) 
{'Premium': 1.5, ‘Basic’: 1.5} 

>>> treepredict2.mdclassify(['google', 'France' ,None,None] , tree) 
{'None’: 0.125, ‘Premium': 2.25, ‘Basic’: 0.125} 
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正如 我 们 所 期 望 的 那样 ， 忽 略 Pages 变量 〈 即 浏览 网 页 数 ) 的 结果 将 导致 Premium 的 概率 
偏 大 ， 而 Basic 的 概率 偏 小 。 对 Read FAQ 变量 的 忽略 则 会 导致 另 一 种 不 同 的 分 布 。 此 处 ， 
每 个 概率 最 终 都 会 乘 以 相应 的 权重 值 〈 即 数据 项 位 于 各 分 支 的 比例 )。 


处 理 数值 型 结果 


Dealing with Numerical Outcomes 


用 户 行为 的 例子 和 水 果树 的 例子 都 属于 分 类 问题 (因为 最 终 的 结果 是 分 类 而 不 是 数字 )。 本 
章 剩余 的 例子 ， 住 房价 格 和 热度 评价 ， 都 是 处 理 数值 型 结果 的 问题 。 


有 时 ， 当 我 们 在 以 数字 作为 输出 结果 的 数据 集 上 执行 bai ldtree 函数 时 ， 效 果 可 能 不 一 定 
非常 的 理想 。 如 果 我 们 将 所 有 数字 都 看 作 是 不 同 的 分 类 ， 那 么 目前 的 算法 将 不 会 考虑 这 样 
一 个 事实 : 有 些 数 字 彼 此 非常 的 接近 ， 而 其 他 数字 则 相差 很 远 ， 我 们 将 这 些 数 字 完全 看 作 
成 了 绝对 的 离散 。 为 了 解决 这 个 问题 ， 当 我 们 拥有 一 棵 以 数字 作为 输出 结果 的 决策 树 时 ， 
我 们 可 以 使 用 方差 (variance) (FAM ARKDA EASE. iPM variance 
加 入 到 treepredict.py 中 : 
def variance (rows): 

if len(rows)==0: return 0 

data=[(float(row[len(row)-1]) for row in rows] 

mean=sum (data) /len (data) 


variance=sum([(d-mean)**2 for d in data])/len(data) 
return variance 


该 函数 可 以 作为 buildtree 的 一 个 参数 ， 它 的 作用 是 计算 一 个 数据 集 的 统计 方差 。 偏 低 的 
方差 代表 数字 彼此 都 非常 的 接近 ， 而 偏 高 的 方差 则 意味 着 数字 分 散 得 很 开 。 当 使 用 方差 作 
为 评价 函数 来 构造 决策 树 时 ， 我 们 选择 节点 判断 条 件 的 依据 就 变 成 了 : 拆 分 之 后 令 数字 较 
大 者 位 于 树 的 一 侧 ， 数 字 较 小 者 位 于 树 的 另 一 侧 。 以 这 种 方式 来 拆 分 数据 ， 就 可 以 降低 分 
支 的 整体 方差 。 


对 住房 价格 进行 建 模 


Modeling Home Prices 


决策 树 有 许多 法 在 的 应 用 ， 不 过 假如 存在 多 个 可 能 的 观测 变量 ， 而 且 我 们 又 对 决策 推导 的 
过 程 很 感 兴趣 的 话 ， 那 么 此 时 决策 树 的 应 用 价值 是 最 大 的 。 在 某 些 场合 下 ， 也 许 我 们 已 经 
知道 了 最 终 的 输出 结果 ， 而 我 们 所 关心 的 则 是 如 何 对 输出 结果 进行 建 模 ， 借 此 来 理解 背后 
的 来 龙 去 脉 。 决 策 树 的 一 个 潜在 的 非常 受 关注 的 应 用 领域 是 对 商品 价格 的 理解 ， 尤 其 是 针 
对 那些 拥有 大 量 可 测度 的 观测 变量 的 商品 价格 。 由 于 住房 价格 的 变动 非常 大 ， 况 且 又 有 许 
多 数值 型 变量 和 名 词性 变量 可 以 很 容易 地 被 测量 到 ， 因 此 本 节 我 们 将 着 手 构 造 决策 树 ， 对 
房地产 价格 进行 建 模 。 
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Zillow API 


Zillow 是 一 个 免费 的 Web 服务 ， 其 作用 是 对 房地产 价格 进行 跟踪 ， 并 利用 这 些 信 息 来 评估 
住房 的 价格 。Zillow 的 工作 原理 是 对 样板 住房 (comps， 即 情况 相似 的 住房 ) 进行 考查 ， 并 
利用 其 价格 信息 来 预测 新 的 住房 价格 ， 而 其 所 预测 的 价格 则 将 接近 于 房产 评估 人 员 所 给 出 
的 实际 价格 。 图 7-5 给 出 了 来 自 Zillow 网 站 上 的 一 个 截屏 片段 ， 其 中 包含 了 房屋 的 有 关 信 
息 及 其 评估 值 。 


Owner's Facts 


Mult: family I The owner has aot 
- edited home facts or 


created an estimate. 
3.5 


Are you the owner? 


Edit home facts 


2,474 


Lot size: 2,819 sq ft / 
0.06 acres 


Year built: 1902 


Year -- 

updated: After you're done, your 
edited home facts will 
appear here. You can also 
# Units: 3 make your estimate public 
or keep it private. 


# Stories: 3 


Total rooms: 11 





7-5: XS Zillow.com 的 屏幕 截图 


所 幸 的 是 , Zillow 还 提供 了 一 套 API, 我 们 可 以 利用 这 套 API 获取 到 房屋 的 详细 信息 及 其 评 
估 值 。Zillow API 的 网 页 地 址 为 http/www.zillow.com/howto/api/APIOverview.htm 


为 了 能 够 访问 API， 我 们 须要 得 到 一 个 开发 者 密 钥 ， 该 密 钥 是 免费 的 ， 并 且 可 以 从 Zillow 
网 站 获得 。 这 套 API 本 身 相当 的 简单 一 一 其 使 用 方法 是 ,构造 一 个 包含 全 部 搜索 参数 的 URL 
并 发 起 查询 请 求 , 然后 对 返回 的 XML 结果 进行 解析 , 以 得 到 诸如 卧室 数量 和 评估 价格 这 样 
的 详细 查询 结果 。 请 新 建 一 个 名 为 zillow.py 的 文件 并 加 入 下 列 代码 ; 


import xml.dom.minidom 
import urllib2 


zwskey="X1-ZWzichwxisl5aj_9skq6”" 


就 如 同 我 们 在 第 5 章 中 所 做 的 那样 ， 此 处 我 们 将 采用 minidom API 对 查询 返回 的 XML 结果 
进行 解析 。 函数 getaddressdata 以 地 址 和 城市 作为 输入 参数 ， 并 构造 URL 向 Zillow 查询 
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房产 信息 。 函 数 会 对 查询 返回 的 结果 进行 解析 ， 并 从 中 提取 重要 的 信息 ， 最 后 函数 会 将 这 
些 信息 以 多 元 组 的 形式 返回 。 请 将 该 函数 加 入 zillowpy P: 


def getaddressdata (address,city): 
escad=address.replace({' ','+') 


# 构造 URL 
url='http://www.zillow.com/webservice/GetDeepSearchResults.htm?' 
url+='zws-id=%tséaddress=%tsécitystatezip=%s' % (zwskey,escad,city) 


# 解析 XML 形式 的 返回 结果 
doc=xml.dom.minidom.parseString (urllib2.urlopen({url) .read()) 
code=doc.getElementsByTagName ('code') [0] .firstChild.data 


# 状态 码 为 0 代表 操作 成 功 ， 否 则 代表 有 错误 发 生 


if code!='0': return None 


# 提取 有 关 该 房产 的 信息 

try: 
zipcode=doc.getElementsByTagName ('zipcode') [0]).firstChild.data 
use=doc.getElementsByTagName ('useCode') [0]).firstChild.data 
year=doc.getElementsByTagName ('yearBuilt') (0].firstChild.data 
bath=doc.getElementsByTagName ('bathrooms') [0].firstChild.data 
bed=doc.getElementsByTagName ('bedrooms') [0].firstChild.data 
rooms=doc .getElementsByTagName ('totalRooms') [0].firstChild.data 
price=doc.getElementsByTagName (‘'amount') [0].firstChild.data 

except: 
return None 


return (zipcode,use, int (year), float (bath),int (bed) ,int (rooms) ,price) 


由 于 该 函数 返回 的 元 组 中 ， 代 表 “ 结 果 ” 的 价格 一 栏 位 于 最 后 ， 因 此 我 们 可 以 将 该 元 组 直 
接 放 入 一 个 列表 中 作为 观测 数据 。 要 使 用 此 函数 生成 完整 的 数据 集 ， 我 们 还 需要 一 个 地 址 
- 列表。 你 可 以 选择 自己 生成 列表 ， 也 可 以 去 http//kiwitobes.com/addresslist.txt 下 载 一 个 随机 
生成 的 马 塞 诸 塞 州 剑桥 地 区 附近 的 地 址 列表 。 


请 新 建 一 个 名 为 getpricelist 的 函数 ， 以 读 取 该 文件 并 构造 一 个 数据 列表 : 


def getpricelist(): 
11=[] 
for line in file('addresslist.txt'): 
data=getaddressdata(line.strip(), ‘Cambridge, MA') 
11 .append (data) 
return 11 


现在 ,我 们 可 以 利用 上 述 函 数 生成 数据 集 并 构造 决策 树 了。 可 以 在 你 的 Python 会 话 中 尝试 
执行 下 列 命令 : 

>>> import zillow 

>>> housedata=zillow.getpricelist() 

>>> reload(treepredict) 


>>> housetree=treepredict .buildtree (housedata , scoref=treepredict . variance) 
>>> treepredict.drawtree (housetree, 'housetree. jpg') 
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最 终生 成 的 文件 ，housetree.jpg， 可 能 如 图 7-6 所 示 。 





7-6: 针对 房屋 价格 的 决策 树 


当然 ， 假 如 我 们 只 是 对 推测 房产 的 价格 感 兴趣 ， 那 么 只 须 调 用 Zillow API 得 到 估价 结果 就 
可 以 了 。 此 处 值得 注意 的 是 ， 我 们 实际 上 已 经 为 决定 房屋 价格 所 要 考虑 的 因素 建立 起 了 一 
个 模型 。 请 注意 ， 这 棵 树 的 根 节点 是 浴室 ， 这 意味 着 为 了 最 大 限度 的 降低 方差 ， 我们 是 根 
据 浴 室 的 总 量 来 拆 分 数据 集 的 。 在 剑桥 地 区 ， 住 房价 格 的 主要 决定 因素 是 看 它 是 否 有 3 个 
或 更 多 的 浴室 (通常 这 表明 该 房产 是 一 所 供 多 户 家 庭 居 住 的 大 房子 )。 


决策 树 的 使 用 在 此 处 有 一 个 显著 的 缺陷 ， 我们 必须 建立 大 量 的 价格 数据 才 行 ， 这 是 因为 住 
房 的 价格 千差万别 ， 而 且 为 了 能 够 得 出 有 价值 的 结论 ， 我 们 须要 以 某 种 方式 对 其 进行 有 效 
的 分 组 。 要 找到 一 种 针对 实际 价格 数据 的 更 加 有 效 的 预测 技术 并 不 是 没有 可 能 。 第 8 章 我 
们 将 讨论 另 一 种 价格 预测 的 方法 。 


对 “热度 ”评价 进行 建 模 


Modeling "Hotness" 


Hot or Not 是 一 个 允许 用 户 上 传 自己 照片 的 站 点 。 网 站 的 初 右 是 让 用 户 能 够 根据 他 人 的 外 表 
形象 对 其 进行 评价 ， 然 后 网 站 会 将 评价 结果 综合 起 来 ， 并 为 每 个 人 设立 一 个 介 于 1 到 10 之 
间 的 评分 。Hot or Not 后 来 逐渐 演变 成 了 一 个 约会 交友 的 网 站 , 现在 它 还 提供 了 一 套 开放 的 
API， 人 允许 你 获取 网 站 成 员 的 个 人 信息 以 及 他 们 的 “热度 ”评价 情况 。 这 使 得 Hot or Not 成 
为 实验 决策 树 建 模 的 一 个 很 好 的 案例 ， 因 为 它 拥 有 一 组 输入 变量 和 一 个 输出 变量 ， 还 有 一 
个 可 能 颇 为 有 趣 的 推理 过 程 。Hot or Not 站 点 本 身 也 是 集体 智慧 的 一 个 很 好 的 应 用 案例 。 


为 了 访问 Hot or Not API, 我 们 须要 得 到 一 个 应 用 密 钥 。 可 以 在 httpydev.hotornot:.com/signup 
上 注册 并 获得 一 个 相应 的 密 钥 。 
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Hot or Not API 与 前 述 其 他 API 的 工作 机 理 是 完全 一 样 的 。 我 们 只 要 向 某 个 URL 传送 查询 
所 需 的 参数 ， 并 对 返回 的 XML 结果 进行 解析 就 可 以 了 。 首 先 ， 请 新 建 一 个 名 为 hotornot.py 
的 文件 ， 并 将 下 列 import 语句 以 及 对 密 钥 的 定义 加 入 其 中 : 


import urllib2 
import xml.dom.minidom 


api_key="479NUNJHETN" 


接 下 来 ， 是 获取 一 个 随机 的 人 员 列 表 ， 用 于 构造 数据 集 。 所 幸 的 是 ，Hot or Not 提供 了 一 个 
API 调用 ， 能 够 返回 符合 指定 条 件 的 人 员 列 表 。 在 本 例 中 ,唯一 的 查询 条 件 就 是 有 否 “meet 
me” 摘 述 信息 ， 因 为 我 们 只 有 从 这 些 描述 信息 中 才能 获取 到 其 他 诸如 家 庭 住址 和 兴趣 爱好 
这 样 的 信息 。 请 将 该 函数 添加 到 hotornotpy 中 : 
def getrandomratings(c): 
# 为 getRandomProfile 构造 URL 
url="http://services.hotornot.com/rest/?app_key=%ts" % api key 


url+="émethod=Rate.getRandomProfileéretrieve_ num=%d" % c 
url+="4&get_rate_info=trueémeet_users only=true" 


fl=urllib2.urlopen(url) .read() 
doc=xml.dom.minidom.parseString (fl) 


emids=doc.getElementsByTagName ('emid') 
ratings=doc.getElementsByTagName('rating') 


# 4 emids 和 ratings 组 合 到 一 个 列表 中 
result=[] 
for e,r in zip{emids, ratings): 
if r.firstChild!=None: 
result.append({(e.firstChild.data,r.firstChild.data) ) 
return result 


当 我 们 生成 了 包含 用 户 ID 和 评价 信息 的 列表 之 后 , 还 须要 一 个 函数 来 下 载 人 员 信 息 一 一 在 
本 例 中 ， 包 括 性 别 、 年 龄 、 住 址 和 关键 字 。 将 所 有 50 个 州都 作为 住址 变量 的 取 值 范围 有 可 
能 会 导致 过 多 的 分 支出 现 。 为 了 减少 住址 的 可 能 取 值 ， 我 们 不 妨 将 各 州 划 分 成 几 个 地 区 。 
请 添加 下 列 代码 以 指定 地 区 信息 : 
stateregions={'New England':[‘'ct','mn', 'ma','nh','ri', 'vt'], 
‘Mid Atlantic’: [dety Ima"; 'nj',‘*ny", 'pa'], 
‘south’: palny tak? "EL "da", “ky",.°18", *ms",,(m6", 
eg "sc', ‘tn ‘val, 'wv'j, 

"Midwest ':[*il', ‘in’, ia "ks", ‘mi", ‘ne’, nid’, “at, ‘sd','wi'), 

"West' : {'ak', ‘ca’, Ee "hit, tid; e i 'nv', ‘or’, "rE", twa’, ‘wy'] } 
Hot or Not API 提供 了 一 个 下 载 个 人 详细 信息 的 方法 调用 ,因此 函数 getpeopledata Hiii 
历 第 一 遍 搜索 得 到 的 所 有 结果 ， 并 依次 调用 API 即 可 查询 到 人 员 的 详细 信息 。 请 将 这 个 函 
数 添 加 到 hotornot.py 中 : 
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def getpeopledata (ratings): 
result=[] 
for emid, rating in ratings: 
# 对 应 于 MeetMe.getProfile 方法 调用 的 URL 


url="http://services.hotornot.com/rest/?app_key=%s" % api_key 
url+="gmethod=MeetMe.getProfiles&emid=%tsi&get keywords=true" % emid 


# 得 到 所 有 关于 此 人 的 详细 信息 

try: 
rating=int (float (rating) +0.5) 
doc2=xml.dom.minidom.parseString (urllib2.urlopen(url).read{)) 
gender=doc2.getElementsByTagName ('gender') [0] .firstChild.data 
age=doc2.getElementsByTagName ('age') [0].firstChild.data 
loc=doc2.getElementsByTagName (‘ location") (0].firstChild.data[0:2] 


# 将 州 转 换 成 地 区 
for r,s in stateregions.items(): 
if loc in s: region=r 


if region!=None: 
result.append( (gender, int (age), region, rating) ) 
except: 
pass 
return result 


现在 ， 我 们 可 以 将 上 述 模块 导 和 人 到 自己 的 Python 会 话 中 ， 生 成 数据 集 了 : 


>>> import hotornot 

>>> ll=hotornot.getrandomratings (500) 
>>> len(11) 

442 

>>> pdata=hotornot.getpeopledata (11) 
>>> pdata[0] 

(u'female', 28, ‘West', 9) 


上 述 列表 中 包含 了 每 个 用 户 的 个 人 信息 ， 最 后 一 个 字段 是 他 们 的 评价 情况 。 我 们 可 以 将 这 
个 数据 结构 直接 传 给 buildtree 方法 来 构造 决策 树 : 


>>> hottree=treepredict.buildtree (pdata, scoref=treepredict.variance) 
>>> treepredict.prune (hottree,0.5) 
>>> treepredict.drawtree (hottree, 'hottree.jpg') 


最 终 决策 树 的 可 能 输出 结果 如 下 页 图 7-7 所 示 。 


图 上 的 根 节 点 对 应 于 性 别 ， 据 此 我 们 得 到 了 数据 集 的 一 个 最 佳 拆 分 。 树 的 剩余 部 分 非常 复 
杂 而 且 难 以 阅读 。 不 过 ， 毫 无 疑问 我 们 还 是 可 以 利用 这 棵 树 来 对 以 前 从 未 谋面 的 人 进行 预 
测 的 。 另 外 ， 因 为 算法 能 够 处 理 数 据 缺 失 的 情况 ， 所 以 我 们 还 可 以 依据 为 数 众多 的 变量 对 
人 员 进 行 聚 类 ,例如 ,也 许 我 们 想 对 比 一 下 南部 地 区 (South) 与 中 大 西洋 地 区 (Mid-Atlantic), 
看 看 这 两 个 地 区 人 们 的 热度 如 何 : 


>>> south=treepredict2.mdclassify((None,None, 'South') ,hottree) 
>>> midat=treepredict2 .mdclassify((None,None, 'Mid Atlantic') ,hottree) 
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图 7-7: 关于 “热度 ”评价 的 决策 树 模型 


>>> south[10)/sum(south.values() ) 
0.055820815183261735 
>>> midat[10]/sum(midat.values()) 
0.048972797320600864 


从 上 述 数 据 集中 我 们 发 现 ， 南 方 地 区 的 高 “热度 ”者 (super-hot people) 相对 而 言 要 稍 多 一 
些 。 我 们 还 可 以 尝试 一 下 其 他 形式 的 预测 ， 比 如 看 一 看 年 龄 的 分 组 情况 ， 或 者 检验 一 下 男 
土 是 否 赢得 了 比 女 士 更 高 的 评价 。 


什么 时 候 使 用 决策 树 


When to Use Decision [rees 


或 许 决策 树 最 大 的 优势 就 在 于 它 可 以 轻易 地 对 一 个 受训 模型 给 予 解释 。 在 本 章 的 例子 里 ， 
执行 完 算法 程序 之 后 ， 我 们 不 仅 可 以 得 到 一 棵 用 以 预测 新 用 户 的 决策 树 ， 而 且 还 可 以 得 到 
一 个 有 助 于 我 们 做 出 判断 的 问题 列表 。 从 中 我 们 可 以 发 现 ， 比 如 那些 通过 Slashdot 找到 该 
站 点 的 用 户 从 来 都 不 会 成 为 付费 订户 ， 而 那些 通过 Google 找到 该 站 点 并 且 至 少 浏览 了 20 
个 网 页 的 用 户 ， 则 很 有 可 能 会 成 为 付费 订户 。 根 据 这 一 情况 ， 我 们 也 许 就 会 对 广告 策略 作 
出 相应 的 调整 ， 使 其 更 加 倾向 于 那些 能 够 为 我 们 带 来 更 高 访问 流量 的 目标 站 点 。 除 此 以 外 ， 
我 们 还 发 现 了 某 些 变量 ， 比 如 用 户 的 出 生 国籍 ， 对 于 最 终 输 出 结果 的 确定 并 没有 起 到 多 大 
的 作用 。 假 如 有 些 数据 难以 收集 或 收集 的 代价 高 昂 ， 而 且 我 们 又 知道 这 些 数 据 无 关 痛 痒 时 ， 
那么 我 们 完全 可 以 不 对 它们 进行 收集 。 


与 其 他 几 种 机 器 学 习 算法 不 同 ， 决 策 树 可 以 同时 接受 分 类 (categorical) 数据 和 数值 
(numerical) 数据 作为 输入 。 在 本 章 的 第 一 个 例子 中 ， 我 们 的 输入 数据 除了 “浏览 网 页 数 ” 
是 数值 数据 外 ， 其 他 几 个 都 属于 分 类 数据 。 不 仅 如 此 ， 许 多 算法 在 运行 之 前 都 要 求 我 们 必 
须 对 输入 数据 做 预 处 理 ， 或 是 归 一 化 处 理 ， 而 本 章 中 的 代码 却 可 以 接受 包括 分 类 数据 和 数 
值 数 据 在 内 的 任何 数据 列表 ， 并 据 此 构造 出 相应 的 决策 树 来 。 
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决策 树 还 允许 数据 的 不 确定 性 分 配 (译注 2)。 由 于 种 种 原因 ， 我 们 不 一 定 总 是 能 掌握 足够 
的 信息 来 做 出 正确 的 分 类 一 一 在 一 棵 决策 树 上 也 许 会 存在 一 部 分 节点 ， 它 们 具有 多 种 可 能 
的 结果 值 ， 但 是 又 无 法 再 进一步 拆 分 。 本 章 中 的 代码 会 返回 一 个 字典 对 象 ， 其 中 包含 了 针 
对 不 同 结果 的 统计 量 ， 借 助 这 一 信息 我 们 可 以 判断 出 结果 的 可 信和 度 。 要 知道 ， 并 不 是 所 有 
算法 都 能 够 评估 出 一 个 不 确定 结果 的 概率 来 的 。 


不 过 ， 此 处 所 使 用 的 决策 树 算法 的 确 还 是 有 缺陷 的 。 虽 然 对 于 只 包含 少数 几 种 可 能 结果 的 
问题 而 言 ， 算 法 处 理 起 来 非常 有 效 ， 但 是 当面 对 拥有 大 量 可 能 结果 的 数据 集 时 ， 算 法 就 变 
得 不 那么 有 效 了 。 在 第 一 个 例子 中 ， 仅 有 的 输出 结果 包括 了 none、basic 和 premium。 而 当 
输出 结果 有 上 百 个 的 时 候 ， 决 策 树 就 会 变 得 异常 复杂 ， 而 且 预 测 的 效果 也 可 能 会 大 打折 扣 。 


本 章 介绍 的 决策 树 还 有 另 一 个 较 大 的 缺陷 ， 尽 管 它 可 以 处 理 简单 的 数值 型 数据 ， 但 是 它 只 
能 创建 满足 “大 于 /小 于 ”条 件 的 节点 。 对 于 某 些 数 据 集 ， 当 我 们 对 其 进行 分 类 的 时 候 ， 决 
定 分 类 的 因素 往往 取决 于 更 多 变量 的 复杂 组 合 ， 此 时 要 根据 前 述 的 决策 树 进 行 分 类 就 比较 
困难 了 了。 例如， 假设 结果 值 是 由 两 个 变量 的 差 来 决定 的 ， 那 么 这 棵 树 就 会 变 得 非常 庞大 ， 
而 且 预 测 的 准确 性 也 会 迅速 下 降 。 


总 之 ， 对 于 有 大 量 数值 型 输入 和 输出 的 问题 ， 决 策 树 未 必 是 一 个 好 的 选择 ， 如 果 数 值 型 输 
入 之 间 存 在 许多 错综复杂 的 关系 ， 比 如 当 我 们 进行 金融 数据 分 析 或 影像 分 析 的 时 候 ， 决 策 
树 同 样 也 不 一 定 是 很 好 的 选择 。 决 策 树 最 适合 用 来 处 理 的 ， 是 那些 带 分 界 点 (breakpoints ) 
的 、 由 大 量 分 类 数据 和 数值 数据 共同 组 成 的 数据 集 。 如 果 对 决策 过 程 的 理解 至 关 重要 ， 那 
么 采用 决策 树 就 再 合适 不 过 了 ， 就 如同 你 已 经 看 到 的 那样 ， 明 白 推理 过 程 有 可 能 和 知道 最 
终 的 预测 结果 同样 的 重要 。 


; KET CISE Pe. 
1. 针对 结果 的 概率 目前, classify 和 mdclassify 函数 都 是 以 总 计数 值 的 形式 给 出 最 终 
结果 的 。 请 对 它们 进行 修改 ， 以 给 出 最 终结 果 属 于 某 个 分 类 的 概率 。 


. 缺失 数据 的 范围 mdclassify 允许 我 们 使 用 “None” 来 表示 一 个 值 的 缺失 。 对 数值 型 
数据 而 言 ， 其 结果 未 必 是 绝对 未 知 的 ， 也 许 相 应 的 取 值 会 落 在 某 个 已 知 的 范围 内 。 请 修 
改 mdclassify ARM, 允许 使 用 一 个 如 {20, 25) 这样 的 元 组 来 代 赤 原来 的 单一 值 , 并 且 如 
果 有 必要 的 话 ， 对 两 个 分 支 都 进行 遍历 。 


. 提早 停止 向 下 拆 分 ”不同 于 对 决策 树 的 剪 枝 ，buialatree 可 以 在 它 到 达 某 个 节点 ， 而 该 
节点 处 对 应 炳 的 下 降幅 度 又 没有 达到 足够 量 的 时 候 ， 停 止 继续 向 下 拆 分 。 有 时 这 种 做 法 
未 必 能 够 达到 理想 的 效果 , 但 是 它 的 确 省 去 了 额外 的 剪 枝 工作 。 请 修改 buildtree AR, 
令 其 接受 一 个 代表 最 小 增益 的 参数 ， 一 旦 最 小 增益 条 件 不 满足 ， 就 停止 继续 向 下 拆 分 。 


N 


Ww 


译注 2; 即 允许 数据 的 缺失 。 
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4. 数据 有 缺失 的 决策 树 构造 ”我 们 编写 的 函数 能 够 对 一 个 有 缺失 的 数据 行进 行 分 类 ， 但 是 
如 果 训 练 集 中 也 有 数据 缺失 的 现象 ， 那 又 该 怎么 办 呢 ? 请 修改 buildtree BRM, SRE 
查 数据 是 否 有 缺失 的 情况 ， 并 且 当 我 们 无 法 将 结果 沿 某 个 分 支 向 下 传递 的 时 候 ， 令 其 同 
时 沿 两 个 分 支 向 下 传递 。 


5. 多 路 径 拆 分 (有 难度 ) ”本 章 中 构造 的 所 有 树 都 是 严格 的 二 又 决策 树 。 然 而 ， 有 些 数 据 
集 却 允许 我 们 可 以 将 一 个 节点 拆 分 成 两 个 以 上 的 分 支 ， 根 据 这 些 数据 集 构造 出 来 的 决策 
树 也 许 会 更 加 的 简单 。 如 果 是 这 样 的 话 ， 那 么 你 将 如 何 表达 此 类 决策 树 ? 又 如 何 对 其 加 
以 训练 呢 ? 
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第 8 章 
构建 价格 模型 
Building Price Models 


迄今 为 止 ， 我 们 已 经 考查 过 了 一 部 分 分 类 器 ， 其 中 大 多 数 都 非常 适合 于 对 未 知 数据 的 所 属 
分 类 进行 预测 。 但 是 ， 在 利用 多 种 不 同属 性 (比如 价格 ) 对 数值 型 数据 进行 预测 时 ， 贝 叶 
斯 分 类 器 、 决 策 树 ， 以 及 支持 向 量 机 (将 在 下 一 章 中 见 到 ) 都 不 是 最 佳 的 算法 。 本 章 我 们 
将 对 一 系列 算法 进行 考查 : 这 些 算 法 可 以 接受 训练 ， 根 据 之 前 见 过 的 样本 数据 作出 数值 类 
的 预测 ， 而 且 它 们 还 可 以 显示 出 预测 的 概率 分 布 情况 ， 以 帮助 用 户 对 预测 过 程 加 以 解释 。 


在 本 章 的 后 续 部 分 ， 我 们 将 考查 如 何 利用 这 些 算法 来 构造 价格 预测 模型 。 经 济 学 家 认为 ， 

价格 (尤其 是 拍卖 价格 ) 是 二 动员 呈 全 弥 御 营 来 决定 商品 真实 价值 的 非常 好 的 方法 ， 在 一 
PC GE Fe BI 商品 的 价格 最 终 将 会 达到 
ASR. e, AR a AREER, AER 
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些 。 正 因为 如 此 ， 所 以 我 们 去 考查 那些 价格 并 非 简单 地 按照 商品 尺寸 或 特征 数量 的 增长 而 
成 比例 增长 的 数据 集 ， 会 更 加 地 有 意义 。 


本 节 中 ， 我 们 将 根据 一 个 人 为 假设 的 简单 模型 来 构造 一 个 有 关 葡 萄 酒 价格 的 数据 集 。 酒 的 
价格 是 根据 酒 的 等 级 及 其 储藏 的 年 代 共 同 来 决定 的 。 该 模型 假设 葡萄 酒 有 “峰值 年 《peak 
age)” 的 现象 , 即 : 较 之 峰值 年 而 言 ， 年 代 稍 早 一 些 的 酒 的 品质 会 比较 好 一 些 ， 而 紧 随 其 后 
的 则 品质 稍 差 些 。 一 瓶 高 等 级 的 葡萄 酒 将 从 高 价位 开始 ， 尔 后 价格 逐渐 走高 直至 其 “峰值 
年 "， 而 一 瓶 低 等 级 的 葡萄 酒 则 会 从 一 个 低 价 位 开始 ， 价 格 一 路 走低 。 


为 了 对 这 一 现象 进行 建 模 ， 我 们 新 建 一 个 名 为 numpredict.py 的 文件 ， 并 加 入 wineprice A 
数 : 


from random import random, randint 
import math 


def wineprice (rating, age): 
peak_age=rating-50 


# 根据 等 级 来 计算 价格 

price=rating/2 

if age>peak age: 
# 经 过 “峰值 年 "， 后 继 5 年 里 其 品质 将 会 变 差 
price=price* (5- (age-peak age)) 

else: ° 

E 价格 在 接近 “峰值 年 ”时 会 增加 到 原 值 的 5 ik 
price=price* (5* ((age+1) /peak age)) 

if price<0: price=0 

return price 


我 们 还 需要 一 个 函数 来 构造 表示 葡萄 酒 价格 的 数据 集 。 下 列 函 数 “ 生 产 ” 了 200 HASTA, 
并 根据 模型 求 出 了 这 些 葡 萄 酒 的 价格 。 紧 接着 ， 函 数 还 在 原 有 价格 的 基础 上 随机 地 加 减 了 
20%, 以 此 来 表现 诸如 税收 和 价格 局 部 变动 这 样 的 情况 , 这 同时 也 是 为 了 增加 数值 型 预测 的 
难度 。 请 将 wineset1 加 入 numpredict.py P: 


def winesetl1(): 
rows=[] 
for i in range(300): 
# 其 机 生成 年 代 和 等 级 
rating=random() *50+50 
age=random() *50 


# 得 到 一 个 参考 价格 


price=wineprice (rating, age) 


# 增加 “ 嗓 声 ” 

price*= (random()*0.4+0.8) 

# 加 入 数据 集 
rows.append({'input': (rating, age), 


*result':price}) 
return rows 
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请 开启 一 个 Python 会 话 ， 然 后 测试 一 下 葡萄 酒 的 价格 ， 并 据 此 构造 出 一 个 新 的 数据 集 : 


$ python 

>>> import numpredict 

>>> numpredict.wineprice(95.0,3.0) 

21.111111111111114 

>>> numpredict.wineprice (95.0,8.0) 

47.5 

>>> numpredict.wineprice(99.0,1.0) 

10.102040816326529 

>>> data=numpredict.winesetl () 

>>> data[0] 

{"input': (63.602840187200407, 21.574120872184949), ‘result’: 34.565257353086487 } 
>>> data[1] 

{"input': (74.994980945756794, 48.052051269308649), ‘result’: 0.0} 


Ean LARA EE PRAT, EAA TT, el TH, mE 
酒 的 年 代 则 正好 。 变 量 间 的 相互 作用 ， 使 得 这 一 数据 集 很 适合 于 对 算法 进行 测试 。 


k- 最 近邻 算法 


k-Nearest Neighbors 


At FR ATA a A TE OY ea TS. BB A A AE RF TTE OT TR PY GA 
是 一 样 的 一 一 即 ， 找 到 几 瓶 情况 最 为 相近 的 酒 ， 并 假设 其 价格 大 体 相 同 。 算 法 通过 寻找 与 
当前 所 关注 的 商品 情况 相似 的 一 组 商品 ， 对 这 些 商品 的 价格 求 均值 ， 进 而 作出 价格 预测 。 
这 种 方法 被 称 为 k- 最 近邻 算法 (k-nearest neighbors, KNN). 


近邻 数 
Number of Neighbors 


KNN 中 的 k 代表 的 ， 是 为 了 求 得 最 终结 果 而 参与 求 平均 运算 的 商品 数量 。 对 于 理想 情况 下 
的 数据 集 , 我 们 可 以 令 k=1, 这 意味 着 我 们 只 会 选择 距离 最 近 的 邻居 ， 并 将 其 价格 作为 最 终 
的 答案 。 不 过 在 现实 世界 里 ， 总 是 没有 那么 理想 化 的 。 在 本 例 中 ,我 们 故意 引入 了 “噪声 ， 
来 模拟 这 样 的 情况 (随机 加 减 了 20%)。 由 于 有 了 这 些 噪声 ， 一 部 分 顾客 可 能 会 因此 大 赚 一 
笔 ， 而 也 有 消息 闭塞 的 顾客 ， 可 能 会 为 这 样 的 “最 近邻 者 ”多 支付 很 多 的 钱 。 基 于 这 样 的 
原因 ， 我 们 最 好 多 选取 一 些 近 邻 ， 然 后 对 它们 取 平 均 ， 以 此 来 减少 噪声 。 


为 了 形象 地 说 明 选 择 过 少 近邻 的 问题 ， 我 们 以 年 代为 例 来 考虑 一 下 只 有 一 个 描述 性 变量 
(descriptive variable) 的 情形 。 下 页 图 8-1 所 示 的 是 一 幅 反 映 价 格 (y 轴 ) 与 年 代 (x 轴 ) 
之 间 关 系 的 图 。 图 上 还 标 出 了 当 只 使 用 一 个 最 近邻 时 所 得 到 的 曲线 。 


请 注意 此 处 所 预测 的 价格 是 怎样 过 度 依赖 于 曲线 的 随机 变化 的 。 如 果 我 们 打算 利用 图 中 的 
曲线 进行 预测 ， 那 么 当 我 们 真 的 只 关注 一 瓶 15 年 的 葡萄 酒 和 一 瓶 16 年 的 葡萄 酒 在 价格 上 
的 差异 时 ， 我 们 就 会 得 出 结论 ， 认 为 这 两 瓶 葡萄 酒 在 价格 上 存在 一 个 大 的 跳跃 。 
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图 8-1; 使 用 过 少 近邻 的 kNN 


另 一 方面 ， 选 择 过 多 的 近邻 同样 也 会 降低 准确 性 ， 因 为 算法 会 对 那些 与 被 查询 的 商品 根本 
没有 任何 相似 性 的 商品 求 平均 。 图 8-2 给 出 了 同样 的 数据 集 ， 以 及 对 20 个 近邻 取 平 均 后 得 
到 的 曲线 。 





图 8-2: 使 用 过 多 近邻 的 kNN 


很 显然 ， 对 太 多 的 葡萄 酒 价格 取 平 均 ， 就 会 极 大 地 低估 25 年 左右 的 葡萄 酒 的 价格 对 结果 所 
产生 的 影响 。 为 了 选择 适当 的 近邻 数 ， 我 们 可 以 针对 不 同 的 数据 集 加 以 手工 选择 ， 或 者 也 
可 以 采用 一 些 优 化 措施 。 
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定义 相似 度 
Defining Similarity 


对 于 kNN 算法 , 我 们 首先 要 做 的 一 件 事 情 是 , 寻找 一 种 衡量 两 件 商品 之 间 相 似 程 度 的 方法 。 
我 们 已 经 在 本 书 中 学 到 过 各 种 不 同 的 度量 方法 。 此 处 ， 我 们 将 选用 欧 几 里 德 距离 算法 ， 相 
应 的 函数 我 们 已 经 在 前 几 章 中 介绍 过 了 。 请 将 euclidian 函数 加 入 numpredict.py 中 ;: 
def euclidean(vl,v2): 
d=0.0 
for i in range(len(vl)): 
d+=(v1l[i)-v2[i])**2 
return math. sqrt (d) 
请 在 你 的 Python 会 话 中 .选择 数据 集中 的 某 几 个 数据 点 ， 尝 试 运行 上 述 函 数 ， 并 得 到 一 个 
新 的 数据 点 ; 
>>> reload (numpredict) 
<module 'numpredict’ from 'numpredict.py'> 
>>> data[0]['input'] 
(82.720398223643514, 49.21295829683897) 
>>> data[1] ['input'] 
(98.942698715228076, 25.702723509372749) 
>>> numpredict.euclidean (data[0] ['input'] ,data[1] ['input']) 
28 .56386131112269 
你 会 注意 到 ， 该 函数 在 计算 距离 时 对 年 代 和 等 级 是 同等 看 待 的 ， 但 是 现实 情况 是 ， 某 些 变 
量 对 最 终 价格 所 产生 的 影响 往往 会 比 其 他 变量 更 大 。 这 是 kNN 众所周知 的 一 个 缺点 ， 而 解 
决 这 一 问题 的 方法 将 在 本 章 的 后 续 部 分 讲 到 。 i 


k- 最 近邻 算法 的 代码 
Code for k-Nearest Neighbors 


KNN 是 一 种 实现 起 来 相对 简单 的 算法 。 虽 然 这 种 算法 的 计算 量 很 大 (computationally 
intensive), 但 是 其 优点 在 于 每 次 有 新 数据 加 入 时 , 都 无 须 重新 进行 训练 。 请 将 getdistances 
函数 加 入 numpredict.py 中 ， 我 们 利用 该 函数 来 计算 给 定 商品 与 原 数据 集中 任 一 其 他 商品 间 
的 距离 : 
def getdistances (data,vecl): 
distancelist=[] 
for i in range(len(data)): 
vec2=data[i] ['input'] 
distancelist.append( (euclidean (vecl, vec2),i)) 
distancelist.sort () 
return distancelist 


该 函数 针对 给 定向 量 ， 以 及 数据 集中 的 任何 一 个 其 他 的 向 量 ， 调 用 距离 函数 ， 并 将 结果 置 
入 一 个 大 的 列表 中 。 为 了 让 距离 最 近 者 位 于 最 前 端 ， 我 们 对 列表 进行 了 排序 。 


KNN 函数 利用 了 上 述 距 离 列表 ， 并 对 其 中 的 前 x 项 结果 求 出 了 平均 值 。 请 将 knnestimate 
加 入 numpredict.py P: 
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def knnestimate (data,vecl, k=5): 
# 得 到 经 过 排序 的 距离 值 
dlist=getdistances (data,vecl) 
avg=0.0 


# 对 前 k 项 结果 求 平均 

for i in range(k): 
idx=dlist [i] [1] 
avgt=data [idx] ['result'] 

avg=avg/k 

return avg 


现在 ， 我 们 可 以 对 一 件 新 商品 进行 估价 了 ; 


>>> reload (numpredict) 

>>> numpredict.knnestimate (data, (95.0,3.0)) 

29.176138546872018 : 

>>> numpredict.knnestimate (data, (99.0,3.0)) 

22.356856188108672 

>>> numpredict.knnestimate (data, (99.0,5.0)) 

37.610888778473793 

>>> numpredict.wineprice(99.0,5.0) # Get the actual price # 得 到 实际 价格 
30.306122448979593 

>>> numpredict.knnestimate (data, (99.0,5.0),k=1) # FRR HLS 
38.078819347238685 


请 尝试 不 同 的 参数 和 不 同 的 kx 值 ， 看 一 看 它们 对 结果 是 如 何 产生 影响 的 。 


为 近邻 分 配 权 重 


Weighted Neighbors 


目前 我 们 所 用 的 算法 有 可 能 会 选择 距离 太 远 的 近邻 ， 对 于 这 样 的 情况 ， 一 种 补偿 的 办 法 是 
根据 距离 的 远近 为 其 赋 以 相应 的 权重 。 这 种 方法 与 我 们 在 第 2 章 中 所 采用 的 方法 是 类 似 的 ， 
在 那里 我 们 根据 某 一 位 寻求 推荐 的 用 户 与 其 他 人 在 偏好 上 的 相近 程度 ， 为 那些 人 的 偏好 赋 
予 了 相应 的 权重 。 


商品 越 是 相近 ， 彼 此 间 的 距离 就 越 小 ， 我 们 须要 一 种 方法 来 将 距离 转换 为 权重 。 要 完成 这 
项 工作 可 以 有 多 种 不 同 的 方法 ， 每 一 种 方法 都 各 有 优 缺 点 。 本 节 我 们 将 介绍 3 种 方法 。 


RAR 


Inverse Function 


在 第 4 章 中 ,我们 将 距离 转换 为 权重 所 使 用 的 是 一 个 反 国 数 。 图 8-3 给 出 了 这 种 方法 的 图 示 ， 
其 中 一 个 坐标 轴 代 表 的 是 权重 ， 另 一 个 则 代表 价格 。 


该 函数 最 为 简单 的 一 种 形式 是 返回 距离 的 倒数 。 不 过 有 时 候 ， 完 全 一 样 或 非常 接近 的 商品 ， 
会 使 权重 值 变 得 非常 之 大 ， 甚 至 是 无 穷 大 。 基 于 这 样 的 原因 ， 我 们 有 必要 在 对 距离 求 倒数 
之 前 先 加 上 一 个 小 小 的 常量 。 
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图 8-3: RERBR 


请 将 inverseweight 函数 加 入 numpredict.py 中 : 


def inverseweight (dist,num=1.0,const=0.1): 
return num/(dist+¢const) 


该 函数 的 执行 速度 很 快 ， 也 很 容易 实现 ， 我 们 还 可 以 尝试 一 下 不 同 的 num 值 ， 看 看 哪个 效 
果 更 好 。 这 种 方法 最 为 主要 的 潜在 缺陷 在 于 ， 它 会 为 近邻 项 赋 以 很 大 的 权重 ， 而 稍 远 一 点 
的 项 ， 其 权重 则 会 “衰减 ”得 很 快 。 这 种 情况 也 许 正 是 我 们 所 期 望 的， 但 有 的 时 候 ， 这 也 
会 使 算法 对 噪声 变 的 更 加 敏感 。 


减法 函数 


Subtraction Function 
除了 反 销 数 外 ， 我 们 的 另 一 个 选择 是 减法 范 数 ， 算 法 示意 图 如 下 页 图 8-4 所 示 。 


这 是 一 个 很 简单 的 函数 , 它 用 一 个 常量 值 减 去 距离 。 如 果 相 减 的 结果 大 于 0， 则 权重 为 相 减 
的 结果 ， 否则 ， 结 果 为 0。 请 将 subtractweight 图 数 加 入 numpredict.py 中 : 
def subtractweight (dist,const=1.0): 
if dist>const: 
return 0 


else: 
return const-dist 


该 函数 克服 了 前 述 对 近邻 项 权重 分 配 过 大 的 法 在 问题 ,但 是 它 也 有 自身 的 局 限 。 由 于 权重 
值 最 终 会 跌 至 0, 因此 我 们 有 可 能 找 不 到 距离 足够 近 的 项 , 将 其 视 作 近邻 , 即 : 对 于 某 些 项 ， 
算法 根本 就 无 法 作出 预测 。 


为 近邻 分 配 权重 | 173 


ww ai bbt. com DOOO000 





8-4: 减法 权重 函数 


高 斯 函数 


人 es E saad one 
Gaussian Function 


最 后 我 们 来 看 一 下 高 斯 函数 ， 也 有 人 称 其 为 “ 钟 型 曲线 "。 该 方法 要 比 此 前 提 到 的 其 他 函数 
稍 复杂 一 些 ， 不 过 你 会 发 现 ， 这 种 方法 克服 了 前 述 方法 的 局 限 。 高 斯 函数 如 图 8-5 所 示 。 


图 8-5: 高 斯 权重 函数 





该 函数 在 距离 为 0 的 时 候 所 得 的 权重 值 为 1， 并且 权 重 值 会 随 着 距离 的 增加 而 减少 。 不 过 ， 
和 减法 函数 不 同 的 是 ， 这 里 的 权重 值 始终 都 不 会 跌 至 0， 因此 该 方法 总 是 可 以 做 出 预测 的 。 
高 斯 函数 的 代码 有 些 复杂 ， 而 且 其 执行 速度 不 会 像 其 他 两 个 函数 那样 快 。 
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请 将 gaussian 加 入 numpredict.py 中 : 


def gaussian(dist,sigma=10.0): 
return math.e** (-dist**2/ (2*sigma**2) ) 


现在 ， 请 针对 部 分 数据 项 尝试 使 用 上 述 不 同 的 函数 ， 并 传人 不 同 的 参数 值 ， 看 一 看 这 些 方 
法 彼此 间 的 差异 如 何 : 


>>> reload (numpredict) 

<module 'numpredict' from 'numpredict.py'> 
>>> numpredict.subtractweight (0.1) 
0.9 z 
>>> numpredict.inverseweight (0.1) 
5.0 

>>> numpredict.gaussian (0.1) 
0.995012479192 68232 

>>> numpredict.gaussian (1.0) 
0.60653065971263342 

>>> numpredict.subtractweight (1) 
0.0 

>>> numpredict.inverseweight (1) 
0.90909090909090906 

>>> numpredict.gaussian (3.0) 
0.01110899653824231 


我 们 可 以 看 到 , 所 有 函数 都 是 在 距离 为 0.0 处 得 到 最 大 的 权重 值 , 然后 从 那 一 点 开始 以 不 同 
的 方式 逐渐 递减 。 


加 权 kNN 
Weighted KNN 


实现 加 权 KNN 算法 的 代码 与 普通 的 KNN 函数 在 执行 过 程 上 是 相同 的 ,函数 首先 获得 经 过 排 
序 的 距离 值 ， 然 后 取 距离 最 近 的 k 个 元 素 。 与 普通 KNN 相 比 ， 加 权 kNN 算法 最 重要 的 区 
别 在 于 ， 它 并 不 是 对 这 些 元 素 简 单 地 求 平 均 ， 它 求 的 是 加 权 平 均 。 加 权 平均 的 结果 是 通过 
将 每 一 项 的 值 乘 以 对 应 权重 ， 然 后 将 所 得 结果 累加 得 到 的 。 待 求 出 总 和 以 后 ， 我 们 再 将 其 
除 以 所 有 权重 值 之 和 。 


请 将 weightedknn 加 入 numpredict.py 中 : 


def weightedknn (data,vecl,k=5,weightf=gaussian): 
# 得 到 距离 值 
dlist=getdistances (data,vecl) 
avg=0.0 
totalweight=0.0 


# 得 到 加 权 平 均值 

for i in range(k): 
dist=dlist[i) [0] 
idx=dlist[i] [1] 
weight=weightf (dist) 
avgt=weight*data[idx) ['result'] 
totalweight+=weight 

avg=avg/totalweight 

return avg 
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上 述 函 数 循环 遍历 距离 最 近 的 k 个 近邻 ， 并 将 各 个 距离 值 传人 预先 定义 好 的 某 个 权重 函数 。 
变量 ava 的 值 是 通过 将 权重 乘 以 对 应 近邻 的 数值 而 求 得 的 。 变 量 totalweight 是 权重 值 的 
总 和 。 最 后 ， 我 们 将 avg 除 以 totalweight。 


我 们 可 以 在 自己 的 Python 会 话 中 尝试 执行 一 下 上 述 函 数 , 然后 和 普通 的 kNN 函数 做 一 下 性 
能 上 的 对 比 : 

>>> reload (numpredict) 

<module 'numpredict' from 'numpredict.py'> 


>>> numpredict.weightedknn (data, (99.0,5.0)) 
32.640981119354301 


在 本 例 中 ， 通 过 计算 所 得 的 结果 我 们 可 以 看 出 ，weightedknn 比 knnestimate 更 接近 正确 
的 答案 。 不 过 ， 这 只 是 针对 两 组 样 例 而 言 的 。 更 为 严格 的 测验 过 程 须 要 涉及 数据 集中 的 大 
量 不 同 项 ， 我 们 可 以 利用 这 些 项 来 决定 最 优 算 法 和 最 佳 参数 。 接 下 来 ， 你 将 会 看 到 我 们 是 
如 何 进行 这 样 的 测试 的 。 


交叉 验证 


Cross-Validation 


交叉 验证 是 将 数据 拆 分 成 训练 集 与 测试 集 的 一 系列 技术 的 统称 。 我 们 将 训练 集 传人 算法 ， 
随 着 正确 答案 的 得 出 (在 本 章 的 例子 中 即 为 价格 )， 我 们 就 得 到 了 一 组 用 以 进行 预测 的 数据 
集 。 随 后 ， 我 们 要 求 算法 对 测试 集中 的 每 一 项 数据 都 作出 预测 。 其 所 给 出 的 答案 ， 将 与 正 
确 答案 进行 对 比 ， 算 法 会 计算 出 一 个 整体 分 值 ， 以 评估 其 所 做 预测 的 准确 程度 。 


通常 这 一 过 程 会 执行 若干 次 ， 每 次 对 数据 的 拆 分 都 不 相同 。 典 型 的 情况 下 ， 测 试 集 只 会 包 
含 一 小 部 分 数据 ， 大 概 是 所 有 数据 的 5%， 剩 下 的 95% 则 构成 了 训练 集 。 要 实现 这 一 算法 ， 
请 先 在 numpredict.py 中 新 建 一 个 名 为 dividedata 的 函数 ， 该 函数 会 根据 你 给 定 的 比率 ， 
将 原 有 数据 集 拆 分 为 两 个 较 小 的 集合 : 
def dividedata (data,test=0.05): 
trainset=[] 
testset=[] 
for row in data: 
if random()<test: 
testset. append (row) 
else: 
trainset.append (row) 
return trainset,testset 


接 下 来 ， 我 们 为 算法 提供 训练 集 ， 并 针对 测试 集中 的 每 一 项 数据 来 调用 算法 ， 以 此 对 算法 
加 以 测试 。 下 面 给 出 的 函数 会 求 得 差 值 ， 并 将 这 些 差 值 组 合 起 来 建立 起 一 个 评分 值 的 聚合 ， 
结果 ， 以 此 来 评估 预测 结果 与 正确 结果 大 体 上 的 差距 。 为 此 ， 我 们 通常 需要 将 所 有 差 值 的 
平方 累加 起 来 。 
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请 将 一 个 新 的 函数 ，testalgorithm， 加 入 numpredict.py: 


def testalgorithm(algf,trainset,testset): 
error=0.0 
for row in testset: 
guess=algf (trainset, row{'input']) 
error+=(row['result"]-guess) **2 
return error/len(testset) 


testalgorithmfY algf 接受 一 个 算法 函数 作为 参数 ,而 该 算法 函数 则 接受 一 个 数据 集 和 一 
个 查询 项 作为 参数 。testalgorithnm 会 循环 遍历 测试 集中 的 每 一 行 , 并 利用 alot 得 出 最 佳 
的 猜测 结果 。 随 后 ， 它 会 从 实际 结果 中 减 去 猜测 所 得 的 结果 。 


对 数字 求 平方 是 一 种 常见 的 做 法 ， 因 为 它 会 突显 较 大 的 差 值 。 这 意味 着 ， 一 个 在 大 多 数 时 
候 都 非常 接近 于 正确 值 ， 但 是 偶尔 会 有 较 大 偏离 的 算法 ， 要 比 始终 都 比较 接近 于 正确 值 的 
算法 稍 还 一 些 。 一 般 而 言 ， 这 种 情况 是 我 们 所 期 望 的 ， 不 过 有 时 也 有 例外 ， 那 就 是 ， 如果 
算法 在 余下 的 大 多 数 时 候 准 确 度 都 非常 的 高 ， 那 么 偶尔 犯 一 个 大 错误 还 是 可 以 接受 的 。 如 
果 是 这 种 情况 ， 那 么 我 们 可 以 对 函数 稍 做 修改 ， 只 要 将 差 值 的 绝对 值 累加 起 来 即 可 。 


实现 交叉 验证 算法 的 最 后 一 个 步骤 是 编写 一 个 函数 ， 对 数据 采取 若干 不 同 的 划分 ， 并 在 每 
个 划分 上 执行 kestalgorithm 函数 ， 然 后 再 将 所 有 的 结果 都 累加 起 来 ， 以 求 得 最 终 的 评分 
值 。 我 们 将 crossvalidate 加 入 numpredict.py P; 
def crossvalidate(algf,data,trials=100,test=0.05): 
error=0.0 
for i in range(trials): 
trainset, testset=dividedata(data,test) 


errort=testalgorithm(algf,trainset,testset) 
return error/trials 


目前 为 止 所 编写 的 代码 有 许多 可 以 调整 的 地 方 ， 我 们 可 以 针对 不 同 的 调整 方式 进行 比较 。 
例如 ， 我 们 可 以 利用 不 同 的 k 值 来 试验 knnestimate MR. 

>>> reload (numpredict) 

<module 'numpredict' from 'numpredict.py’> 

>>> numpredict .crossvalidate (numpredict.knnestimate, data) 


254.06864176819553 
>>> def knn3(d,v): return numpredict.knnestimate (d,v,k=3) 


>>> numpredict.crossvalidate (knn3,data) 
166.97339783733005 
>>> def knni(d,v): return numpredict.knnestimate(d,v,k=1) 


>>> numpredict.crossvalidate(knn1,data) 
209.54500183486215 


正如 我 们 所 预料 的 ， 选 择 太 少 或 太 多 的 近邻 都 会 导致 效果 不 彰 。 在 本 例 中 , 值 为 3 的 效果 
要 比 1 或 5 好。 你 也 可 以 试 一 下 此 前 曾 为 加 权 kNN 算法 定义 过 的 各 种 不 同 的 权重 函数 ， 看 
看 哪 一 个 函数 能 够 给 出 最 佳 的 结果 : 
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>>> numpredict.crossvalidate (numpredict .weightedknn , data) 
200.34187674254176 
>>> def knninverse(d,v) : 
return numpredict.weightedknn (d,v,\\ 
weightf=numpredict.inverseweight) 
>>> numpredict.crossvalidate (knninverse, data) 
148.85947702660616 


待 我 们 正确 设置 好 参数 之 后 ， 加 权 kNN 算法 似乎 能 够 针对 上 述 数据 集 给 出 更 好 的 结果 来 。 
选择 正确 的 参数 也 许 会 花费 一 定 的 时 间 ， 但 是 对 于 一 个 特定 的 训练 集 而 言 ， 这 样 的 工作 我 
们 只 须要 做 一 次 即 可 ， 或 许 ， 随 着 训练 集 内 容 的 增长 ， 偶 尔 我 们 还 须要 对 其 进行 再 次 的 更 
新 。 在 本 章 稍 后 的 “对 缩放 结果 进行 优化 ”一 节 中 ， 我 们 将 会 考查 自动 确定 部 分 参数 的 方 
法 。 


不 同类 型 的 变量 
Heterogeneous Variables 


我 们 在 本 章 开 始 处 所 构造 的 数据 集 是 特地 做 了 人 为 简化 的 ， 用 来 预测 价格 的 所 有 变量 大 致 
上 都 是 可 比较 的 ， 而 且 这 些 变量 对 最 终 的 结果 都 很 重要 。 


因为 所 有 变量 都 位 于 同一 值 域 范围 内 ， 因 此 利用 这 些 变量 一 次 性 算出 距离 值 是 有 意义 的 。 
不 过 ,假设 我 们 引入 了 一 个 对 价格 产生 影响 的 新 变量 ， 诸 如 以 毫升 为 单位 的 酒 甚 尺寸 。 与 
我 们 目前 已 经 使 用 过 的 变量 不 同 〈 那 些 变量 的 取 值 均 介 于 0 和 100 之 间 )， 这 些 变量 的 值 域 
范围 可 能 会 达到 1500, 请 见 下 页 图 8-6, 看 看 这 种 情况 是 如 何 对 最 近邻 或 加 权 距 离 的 计算 结 
果 构 成 影响 的 。 


很 显然 ， 和 原先 的 变量 相 比 ， 这 个 新 的 变量 对 距离 计算 所 产生 的 影响 更 为 显著 一 一 其 影响 
将 超过 任何 其 他 变量 对 距离 计算 所 构成 的 影响 ， 这 意味 着 ， 在 计算 距离 的 过 程 中 其 他 变量 
根本 就 未 被 考虑 在 内 。 


除 此 以 外 ， 我 们 可 能 会 遇 到 的 另 一 个 问题 是 数据 集中 引入 了 完全 不 相关 的 变量 。 如 果 前 面 
的 数据 集中 还 包含 了 安放 葡萄 酒 的 通道 号 ， 那 么 这 一 变量 也 将 会 被 纳入 距离 计算 之 中 。 如 
此 一 来 ， 对 于 其 他 方面 都 完全 一 样 ， 唯 独 所 在 通道 不 一 样 的 两 瓶 葡 萄 酒 而 言 ， 算 法 也 会 将 
其 认为 是 不 同 的 ， 这 种 情况 会 导致 算法 预测 的 准确 度 大 打折 扣 。 


加 入 数据 集 


Adding to the Dataset 


为 了 模仿 上 述 效果 , 我 们 须要 将 一 些 新 的 变量 加 入 到 数据 集中 。 我 们 可 以 照搬 wineset1 中 
的 代码 ， 新 建 一 个 名 为 wineset2 的 函数 ， 并 对 其 进行 修改 ， 加 入 下 列 以 黑体 显示 的 部 分 : 
def wineset2 |(): 
rows=[] 
for i in range(300): 
rating=random() *50+50 
age=random() *50 
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图 8-6: 不 同类 型 的 变量 导致 距离 的 计算 出 现 问题 


aisle=float (randint(1,20)) 

bottlesize=[375.0,750.0,1500.0,3000.0] [randint (0,3)] 

price=wineprice (rating, age} 

price*=(bottlesize/750) 

price*=(random()*0.9+0.2) 

rows .append({'input': (rating, age,aisle,bottlesize) , 
‘result ':price}) 

return rows 


现在 ， BUT LA ea — i a Rt EE T : 


>>> reload(numpredict) 
<module 'numpredict' from ‘numpredict.py'> 
>>> data=numpredict .wineset2() 


为 了 看 到 新 数据 集 对 kNN 预测 算法 的 影响 情况 ， 请 按照 我 们 此 前 得 到 的 最 佳 参 数值 ;试验 
一 下 这 个 新 的 数据 集 ; 

>>> Dumpredict .crossvalidate(knn3, data) 

1427 .3377833596137 


>>> numpredict.crossvalidate(numpredict .weightedknn, data) 
1195.0421231227463 


我 们 会 发 现 ， 即 使 数据 集 现 在 包含 了 更 多 的 信息 ， 而 且 品 声 也 比 以 前 更 少 了 (理论 上 ， 这 
应 该 会 得 到 更 好 的 预测 结果 )， 但 是 crossvalidate 函数 实际 返回 的 结果 较 之 以 前 却 更 为 
精 粒 。 其 原因 就 在 于 ， 算 法 现在 还 不 知道 如 何 对 不 同 的 变量 加 以 区 别 对 待 。 
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按 比例 缩放 
ocaling Dimensions 


此 处 ， 我 们 所 需要 的 并 不 是 一 种 根据 变量 的 实际 值 来 计算 距离 的 方法 ， 而 是 需要 一 种 对 数 
值 进行 归 一 化 处 理 的 方法 ， 从 而 使 所 有 变量 都 位 于 相同 的 值 域 范 围 之 内 。 这 样 做 也 有 助 于 
找到 减少 多 余 变 量 的 方法 ， 或 者 至 少 能 够 降低 其 对 计算 结果 的 影响 。 为 了 达成 上 述 两 个 目 
标 ， 一 种 办 法 就 是 在 进行 任何 计算 之 前 先 对 数据 重新 按 比 例 进 行 缩放 。 


按 比 例 重新 进行 缩放 的 最 简单 形式 是 将 每 个 维度 上 的 数值 乘 以 一 个 在 该 维度 上 的 常量 。 如 
8-7 所 示 。 





0 


8-7: 对 各 个 维度 进行 缩放 解决 了 距离 计算 的 问题 


我 们 可 以 看 到 ， 代 表 酒 瓶 尺寸 的 维度 被 值 为 10 的 比例 因子 缩小 了 ， 相 应 地 ， 一 些 项 的 最 近 
邻 也 产生 了 变化 。 这 种 做 法 解决 了 一 部 分 变量 天 生 比 其 他 变量 更 “强势 ” 的 问题 ， 但 是 对 
于 那些 重要 程度 不 高 的 变量 ， 又 如 何 处 置 呢 ? 设想 一 下 ， 如 果 将 某 个 维度 上 的 每 一 项 数值 
都 乘 以 0 会 是 怎样 呢 ， 如 下 页 图 8-8 所 示 。 


请 注意 ， 在 代表 通道 的 维度 上 ， 每 一 项 数据 所 处 的 地 位 都 是 相同 的 ， 因 此 两 项 之 间 的 距离 
就 完全 取决 于 其 在 年 代 维度 上 所 处 的 位 置 了 。 也 就 是 说 ， 在 计算 最 近邻 的 过 程 中 ， 通 道 这 
一 变量 已 经 变 得 毫 无 意义 ， 并 且 被 彻底 忽略 了 。 如 果 所 有 无 关 紧 要 的 变量 都 被 缩减 到 了 0, 
那么 算法 将 会 变 得 更 加 准确 。 


函数 rescale 接受 一 个 列表 项 和 一 个 名 为 scale 的 实数 列 作 为 参数 。 该 函数 返回 一 个 新 的 
数据 集 ， 其 中 的 所 有 数据 都 乘 了 scale 参数 中 的 对 应 值 。 请 将 rescale 加 入 numpredict.py 
H: 


def rescale (data, scale): 
scaleddata=[] 
for row in data: 
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0 


图 8-8: 重要 程度 不 高 的 维度 被 缩小 到 了 0 


scaled=[scale[(i]*row['input'][i] for i in range(len(scale) })] 
scaleddata.append({'input':scaled, 'result':row['result')}) 
return scaleddata 


FETT AR PEE HES, RT eb BETS, FR HE GRE SH TH 
意 的 预测 结果 : 

>>> reload(numpredict) 

<module ‘numpredict' from 'numpredict.py'> 

>>> sdata=numpredict.rescale(data, [10,10,0,0.5)]) 

>>> numpredict .crossvalidate(knn3,sdata) 

660.9964024835578 

>>> numpredict.crossvalidate(numpredict .weightedknn, sdata) 

852 .32254222973802 


对 于 上 述 少 量 样 例 数 据 而 言 ， 这 样 的 结果 已 经 相当 不 错 了 ， 肯 定 要 比 之 前 所 得 的 结果 好 。 
请 尝试 更 改 一 下 scale 参数 的 值 ， 看 看 是 否 能 够 得 到 更 好 的 结果 。 


对 缩放 结果 进行 优化 
Optimizing the Scale 


在 本 章 的 例子 里 ， 要 选择 一 个 合适 的 参数 进行 缩放 并 不 困难 ， 因 为 我 们 事先 已 经 知道 了 哪 
个 变量 是 重要 的 。 但 是 ， 大 多 数 时 候 我 们 所 面 对 的 数据 集 都 不 会 是 自己 构造 的 ， 而 且 我 们 
也 未 必 知 道 ， 到 底 哪 些 变量 是 不 重要 的 ， 而 哪些 变量 又 对 计算 结果 有 着 重大 的 影响 。 


理论 上 ， 我们 可 以 尝试 大 量 不 同 数值 的 组 合 ， 直 到 发 现 一 个 足够 好 的 结果 为 止 ， 不 过 也 许 
会 有 数 以 百 计 的 变量 须要 考查 ， 并 且 这 项 工作 可 能 会 非常 地 乏味 。 所 幸 的 是 ， 假 如 你 通读 
过 第 5 章 ， 想 必 已 经 知道 了 ， 如 何在 有 许多 输入 变量 须要 考查 的 情况 下 ， 利 用 优化 算法 自 
动 寻找 最 优 解 的 办 法 。 
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也 许 你 还 记得 ， 优 化 的 过 程 只 要 求 我 们 提供 一 个 指定 变量 个 数 和 值 域 范围 的 定义 域 参数 ， 
和 一 个 成 本 函数 即 可 。 由 于 函数 crossvalidate 对 于 较 差 的 给 定 题 解 ， 会 返回 一 个 较 高 的 
数值 结果 ， 因 此 它 已 经 是 一 个 天 然 的 成 本 函数 了 。 我 们 唯一 要 作 的 事情 ， 就 是 将 它 封 装 起 
来 ， 令 其 接受 一 组 数值 作为 参数 ， 然 后 对 数据 按 比例 进行 缩放 ， 并 计算 交叉 验证 的 误差 。 
请 将 createcostfunction 加 人 numpredict.py: 

def createcostfunction(algf,data): 

def costf(scale): 
sdata=rescale (data, scale} 


return crossvaiidate (algf,sdata,trials=10) 
return costf 


此 处 的 定义 域 就 是 每 一 个 维度 上 的 权重 范围 。 在 本 例 中 ， 由 于 负数 只 会 得 到 原 数值 的 一 个 
镜像 (mirror image) ， 这 对 距离 计算 不 会 有 任何 影响 ， 因 此 我 们 将 定义 域 的 最 小 可 能 值 设置 
为 0。 理论 上 , 我 们 想 将 权重 设 成 多 大 的 值 都 是 可 以 的 , 但 从 实际 应 用 的 角度 出 发 ,眼下 我 
们 只 须 将 其 限制 在 20 即 可 。 请 将 如 下 代码 行 加 入 numpredict.py; 


weightdomain=[ (0,20)]*4 


现在 ， 我 们 已 经 为 自动 优化 权重 值 做 好 了 一 切 准备 。 请 确保 optimization py (我 们 在 第 5 章 
中 建立 的 文件 ) 位 于 当前 目录 下 ， 然 后 在 Python 会 话 中 尝试 一 下 退火 优化 算法 : 

>>> import optimization 

>>> reload (numpredict) 

<module 'numpredict' from 'numpredict.pyc'> 

>>> costf=numpredict.createcostfunction (numpredict.knnestimate,data) 


>>> optimization. annealingoptimize (numpredict.weightdomain,costf,step=2) 
[11,18,0, 6] 


非常 好 ! 算法 不 但 明确 了 通道 是 一 个 没有 价值 的 变量 ， 
且 它 还 指出 了 ， 相 比 于 其 对 结果 的 影响 ， eames meal erent ye 
还 将 另外 两 个 变量 做 了 相应 地 放大 。 


我 们 还 可 以 尝试 一 下 执行 速度 更 慢 但 是 一 般 来 说 更 加 精确 的 geneticoptimize ARM, BF 
它 是 否 会 返回 类 似 的 结果 : 
>>> optimization.geneticoptimize (numpredict .weightdomain,costf,popsize=5,\\ 


lrate=1 ,maxv=4,iters=20) 
[2071850712] 


以 这 种 方式 对 变量 缩放 进行 优化 的 一 个 好 处 在 于 ， 我 们 很 快 就 能 发 觉 哪些 变量 是 重要 的 ， 
并 且 其 重要 程度 有 多 大 。 有 的 时 候 ， 有 些 数据 很 难 收集 到 ， 或 者 收集 的 代价 高 昂 ， 此 时 如 
果 能 够 确定 这 些 数据 不 是 很 有 价值 ， 那 就 可 以 将 其 忽略 以 避免 额外 的 成 本 投入 。 此 外 ， 特 
别 是 在 制定 价格 策略 的 时 候 ， 知 道 哪 些 变量 是 重要 的 ， 有 可 能 会 影响 到 我 们 所 关注 的 方向 ， 
而 这 些 方向 将 会 成 为 市 场 营销 工作 中 相当 重要 的 一 部 分 内 容 ， 另 外 ， 这 样 做 也 有 可 能 会 为 
我 们 揭示 出 ， 如 何 将 商品 设计 得 与 众 不 同 ， 才 能 赢得 最 高 的 价格 。 
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不 对 称 分 布 


Uneven Distributions 


到 目前 为 止 ， 我 们 已 经 假设 了 ， 如 果 你 对 数据 求 平 均 或 加 权 平 均 ， 那 么 就 会 得 到 一 个 有 关 
最 终 价格 的 合理 估计 。 在 许多 场合 下 ， 这 样 做 是 没有 问题 的 ， 但 有 些 时 候 ， 也 可 能 会 存在 
一 些 无 法 测定 的 变量 ， 它 们 会 对 结果 产生 很 大 的 影响 。 假 设 在 本 章 的 例子 中 ， 葡 萄 酒 购买 
者 分 别 来 自 两 个 彼此 独立 的 群 组 : 一 部 分 人 是 从 小 酒馆 购 得 的 葡萄 酒 ， 而 男 一 部 分 人 则 是 
从 折扣 店 购 得 ,并且 后 者 得 到 了 50% 的 折扣 。 不 幸 的 是 , 这 些 信息 在 数据 集中 并 没有 被 记录 
下 来 。 


函数 createhiddendataset 构造 了 一 个 数据 集 ， 用 以 模拟 这 样 的 一 系列 特征 。 它 去 除了 某 
些 复杂 变量 ， 并 将 注意 力 集中 在 了 某 几 个 基本 的 变量 上 。 请 将 该 函数 加 入 numpredict.py 中 


def wineset3(): 
rows=winesetl () 
for row in rows: 
if random()<0.5: 


# 前 前 酒 是 从 折扣 上 店 购 得 的 
row['result']*=0.5 
return rows 


试想 一 下 , 假如 我 们 使 用 kNN 算法 或 加 权 kNN 算法 ， 对 不 同 的 葡萄 酒 进行 价格 预 估 , 会 发 
生 什么 样 的 情况 。 由 于 事实 上 数据 集中 并 不 包含 任何 有 关 购 买 者 是 从 小 酒馆 还 是 从 折扣 上 店 
购买 葡萄 酒 的 信息 ， 因 此 算法 无 法 将 这 一 情况 考虑 在 内 ， 其 所 得 到 的 最 近邻 结果 也 将 不 会 
考虑 购买 源 这 一 因素 。 最 终 的 结果 是 : 算法 给 出 的 平均 值 将 同时 涉及 两 组 人 群 ， 这 就 相当 
于 可 能 有 25% 的 折扣 。 我 们 可 以 在 自己 的 Python 会 话 中 做 一 下 试验 ， 验 证 一 下 这 种 情况 : 

>>> reload (numpredict) 

<module ‘numpredict’ from ‘numpredict.py'> 

>>> data=numpredict.wineset3 () 

>>> numpredict.wineprice(99.0,20.0) 

106.07142857142857 

>>> numpredict.weightedknn (data, [99.0,20.0]) 


83 .475441632209339 
>>> 599.51654107008562 


如 果 你 只 想得到 一 个 简单 的 数字 ， 那 么 这 不 失 为 一 种 预测 的 办 法 ， 但 是 它 并 不 能 准确 地 反 
应 出 某 人 实际 最 终 的 购买 情况 。 为 了 不 只 是 简单 地 得 到 一 个 平均 值 ， 我 们 需要 一 种 方法 能 
够 在 某 些 方面 更 近 一 步 地 对 数据 进行 考查 。 


估计 概率 密度 


Estimating the Probability Density 


除了 取 近 邻 的 加 权 平 均 并 得 到 一 个 价格 预 估 外 ， 知 道 某 瓶 葡萄 酒 落 人 指定 价格 区 间 的 概率 
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也 有 可 能 是 一 件 颇 值 得 关注 的 事情 。 在 本 章 的 例子 中 ,假设 输入 条 件 为 9% 和 20 年 ， 那 么 
我 们 需要 一 个 函数 来 告诉 我 们 ， 价 格 介 于 40 美元 和 80 美元 之 间 的 几率 是 50%， 而 价格 介 
于 80 美元 和 100 美元 之 间 的 几率 也 是 50%。 


为 了 达成 这 一 点 ， 我 们 需要 一 个 函数 能 够 返回 一 个 介 于 0 和 1 之 间 的 值 ， 用 以 代表 概率 。 
函数 首先 计算 位 于 该 范围 内 近邻 的 权重 值 ， 然 后 计算 所 有 近邻 的 权重 值 。 最 终 的 概率 等 于 
在 指定 范围 内 的 近邻 权重 之 和 除 以 所 有 权重 之 和 。 为 了 实现 这 一 计算 过 程 HE 
numpredict.py 中 新 建 一 个 名 为 probguess 的 函数 : 


def probguess (data,vecl, low, high, k=5,weightf=gaussian): 
dlist=getdistances (data, vecl) 
nweight=0.0 
tweight=0.0 


for i in range(k): 
dist=dlist[i] [0) 
idx=dlist [i] [1] 
weight=weighté (dist) 
v=data [idx] ['result'] 


# 当前 数据 点 位 于 指定 范围 内 吗 ? 
if v>=low and v<=high: 
nweight+=weight 
tweight+=weight 
if tweight==0: return 0 


# 概率 等 于 位 于 指定 范围 内 的 权重 值 除 以 所 有 权重 什 


return nweight/tweight 


和 kNN 算法 一 样 ， 该 函数 根据 与 veci 距离 的 远近 对 数据 进行 排序 ， 并 确定 最 近邻 的 权重 
值 。 函 数 将 所 有 近邻 的 权重 加 在 一 起 得 到 tweight。 它 还 会 判断 每 个 近邻 的 价格 是 否 位 于 
指定 范围 内 ( 介 于 low 和 high 之 间 )， 如 果 是 ， 则 将 权重 计 入 nweight。 针 对 veci MA, 
价格 介 于 low Fl high 之 间 的 概率 ， 等 于 nweight 与 tweight 相 除 的 结果 。 


现在 ， 请 针对 前 面 的 数据 集 ， 尝 试 执行 一 下 该 函数 : 


>>> reload (numpredict) 

<module ‘numpredict’ from 'numpredict.py'> 

>>> numpredict.probguess (data, [99,20] ,40,80) 

0. 62305988451497296 

>>> numpredict.probguess (data, [99,20] ,80,120) 
0.37694011548502687 

>>> numpredict .probguess (data, [99,20] ,120,1000) 
0.0 i 

>>> numpredict.probguess (data, [99,20] ,30,120) 
1.0 
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函数 给 出 了 一 个 合理 的 执行 结果 。 位 于 实际 价格 以 外 的 区 间 对 应 概率 为 0, 而 覆盖 全 部 区 间 
的 概率 则 接近 于 1。 通 过 将 区 间 拆 分 成 更 小 的 区 段 ,我 们 可 以 确定 出 每 一 瓶 葡萄 酒 倾向 于 集 
中 分 布 的 实际 值 域 范围 。 不 过 ， 这 要 求 我 们 不 断 地 猜测 范围 区 间 ， 并 将 其 作为 输入 ， 直 到 
对 数据 的 整体 结构 有 了 一 个 清晰 的 认识 为 止 。 在 下 一 节 中 ， 我 们 将 会 学 到 一 种 能 够 获得 概 
率 分 布 整体 视图 的 方法 。 


绘制 概率 分 布 


Graphing the Probabilities 


为 了 避免 胡乱 猜测 范围 区 间 ， 我 们 可 以 建立 概率 密度 的 图 形 化 表达 。 有 一 个 用 于 数学 图 形 
绘制 的 优秀 函数 库 , 名 叫 matplotlib, 该 函数 库 是 用 Python 语言 编写 的 , 而 且 是 完全 免费 的 ， 
我 们 可 以 从 http//matplotlib.sourceforge.net 处 下 载 到 它 。 


在 matplotlib 的 网 站 上 有 相应 的 安装 说 明文 档 ， 附 录 A 中 还 有 关于 matplotlib 的 更 多 信息 。 
该 函数 库 功 能 非常 强大 ， 且 特性 很 多 ， 本 章 中 我 们 将 只 使 用 其 中 的 一 小 部 分 。 在 安装 完毕 
之 后 ,我 们 可 以 在 自己 的 Python 会 话 中 试 着 绘制 一 个 简单 的 图 形 : 

>>> from pylab import * 

>>> a=array{([1,2,3,4]) 

>>> b=array{([4,2,3,1]) 

>>> plot(a,b) 

>>> show () 

>>> tl=arange(0.0,10.0,0.1) 

>>> plot(tl,sin(t1)) 

[<matplotlib.lines.Line2D instance at 0x00ED9300>]) 

>>> show() 


上 述 代 码 绘制 出 了 一 个 简单 的 图 形 , 如 下 页 图 8-9 所 示 。 与 国 数 arange 类 似 , AR arange 
构造 了 一 个 数组 ， 其 中 包含 了 一 组 数字 。 在 本 例 中 ， 我 们 所 绘制 的 是 一 条 从 0 到 10 IESE 
曲线 。 


本 节 将 为 大 家 介绍 两 种 不 同 的 查看 概率 分 布 的 方法 。 第 一 种 方法 被 称 为 累积 概率 

(cumulative probability)。 累 积 概率 图 显示 的 是 结果 小 于 给 定 值 的 概率 分 布 情况 。 以 价格 为 
例 ， 图 形 从 概率 为 0 开始 (对 应 于 价格 小 于 0 的 概率 ) 尔后 随 着 商品 在 某 一 价位 处 命中 的 
概率 值 而 逐 级 递增 。 直 到 最 高 价位 处 ， Bee ESET oe 1 (因为 实际 价格 小 于 或 等 于 
最 高 价格 的 可 能 性 必 为 100%)。 


为 累积 概率 图 构造 数据 是 非常 简单 的 ， 我 们 只 须 循 环 遍历 价格 的 值 域 范围 ， 并 以 0 为 下 限 ， 
以 某 个 指定 价格 为 上 限 ， 调 用 probabilityguess 函数 。 我 们 可 以 将 这 些 调用 的 结果 数据 
传人 plot 函数 中 ， 以 生成 对 应 的 图 形 。 请 将 cumulativegraph 加 入 numpredict.py 中 : 
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8-9: 使 用 matplotlib 的 例子 


def cumulativegraph (data,vec1i,high,k=5,weightf=gaussian): 
tl=arange(0.0,high,0.1) 
cprob=array ( [probguess(data,vecl,0,v,k,weightf) for v in t1]) 
plot (ti,cprob) 
show () 


现在 ， 我 们 可 以 在 自己 的 Python 会 话 中 调用 该 函数 ， 并 生成 相应 的 图 形 了 : 


>>> reload(numpredict) 
<module ‘numpredict' from 'numpredict.py'> 
>>> numpredict.cumulativegraph (data, (1,1),120) 


利用 cumulativegraph 函数 绘制 出 来 的 图 形 类 似 于 下 页 图 8-10 所 示 。 正 如 我 们 所 期 望 的 ， 
累积 概率 从 0 开始 ， 并 一 路 递增 至 1。 这 幅 图 中 值得 注意 的 地 方 在 于 概率 递增 的 方式 : 概率 
值 在 到 达 50 美元 附近 之 前 始终 都 处 于 0, 随后 就 以 极 快 的 速度 攀升 至 0.6, 尔后 这 一 状态 一 
直 维 持 到 110 美元 价位 处 ， 在 那里 又 再 一 次 跳跃 。 


通过 观察 图 形 ， 我 们 可 以 很 清楚 地 看 到 ， 此 处 的 概率 值 集 中 在 60 美元 和 110 美元 之 间 ， 因 
为 那 段 区 间 是 累积 概率 发 生 跳跃 的 地 方 。 预 先 得 知 这 一 情况 将 使 我 们 能 够 在 不 依靠 猜测 的 
情况 下 进行 概率 的 计算 。 


除了 累积 概率 外 ， 还 有 一 种 绘制 概率 分 布 的 方法 ， 那 就 是 尝试 将 处 于 不 同 价位 点 的 实际 概 
率 值 绘制 出 来 。 由 于 任何 一 撼 葡萄 酒 准确 位 于 某 一 价位 的 概率 都 是 非常 低 的 ， 因 此 这 种 方 
法 相 比 而 言 所 要 求 的 技巧 性 会 更 高 一 些 。 这 样 绘制 出 来 的 图 形 ， 在 我 们 预测 的 价格 附近 会 
形成 一 个 个 小 小 的 突起 , 而 其 余地 方 则 几乎 都 会 是 0。 这样 的 结果 并 不 是 我 们 想 要 的 ,我 们 
需要 的 是 有 一 种 方法 能 够 在 某 些 “窗口 ”(windows) 范围 内 将 概率 值 组 合 起 来 。 为 了 达成 
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图 8-10: 累积 概率 图 


这 一 目的 ， 有 一 种 办 法 就 是 ， 假 设 每 个 价位 点 的 概率 都 等 于 其 周边 概率 的 一 个 加 权 平 均 ， 
这 与 加 权 kNN 算法 非常 类 似 。 


要 想 马 上 看 到 效果 ， 请 将 probabilitygraph 加 入 numpredict.py: 


def probabilitygraph (data,vecl,high, k=5,weight f=gaussian,ss=5.0): 
# 建立 一 个 代表 价格 的 值 域 范 团 
ti=arange(0.0,high,0.1) 


E 得 到 整个 值 域 范围 内 的 所 有 概率 
probs=([probguess (data,vecl,V,v+0.1,k,weightf) for v in tl] 


# 通过 加 上 近邻 概率 的 高 斯 计算 结果 ， 对 概率 值 做 平滑 处 理 
smoothed=[] 
for i in range(len(probs)): 
sv=0.0 
for j in range(0,len(probs)): 
dist=abs(i-j)*0.1 
weight =gaussian(dist,sigma=ss) 
sv+=weight *probs[j] 
smoothed. append (sv) 
smoothed=array (smoothed) 


plot (ti, smoothed) 
show () 
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上 述 函 数 首 先 构造 了 一 个 从 0 到 high 的 值 域 ， 然 后 又 计算 了 值 域 范 围 内 每 个 数据 点 的 概率 
值 。 由 于 这 样 做 通常 会 导致 图 形 出 现 明显 的 锯齿 ， 因 此 函数 又 对 数组 做 了 循环 遍历 ， 通 过 
追加 相 邻 概率 值 的 方法 对 数组 进行 了 平 清 处 理 。 经 过 平 请 处 理 后 的 每 个 数据 点 ， 其 对 应 的 
概率 值 都 是 邻近 概率 的 高 斯 加 权 和 。 参 数 ss 指定 了 概率 应 被 平滑 处 理 的 程度 。 


请 在 你 的 Python 会 话 中 尝试 执行 一 下 该 国 数 : 
>>> reload(numpredict) 


<module 'numpredict' from 'numpredict.py'> 
>>> numpredict.probabilitygraph (data, (1,1),6) 


执行 的 结果 应 该 得 到 一 个 类 似 图 8-11 所 示 的 图 形 。 





图 8-11 : 一 幅 概率 密度 图 


通过 上 图 我 们 可 以 更 加 清楚 地 看 到 结果 数据 集中 分 布 的 区 域 。 请 尝试 不 同 的 窗口 参数 ss， 

看 看 相应 结果 的 变化 情况 。 这 样 的 概率 分 布 清楚 地 反映 出 ， 我 们 在 预测 葡萄 酒 价格 时 缺少 
了 一 部 分 关键 数据 ， 那 就 是 有 些 人 的 葡萄 酒 生意 何以 比 其 他 人 做 得 更 好 的 原因 。 有 的 时 候 ， 
我 们 能 够 明确 地 指出 这 些 数据 是 什么 ， 但 有 的 时 候 ， 我 们 只 会 发 现 自己 须要 在 更 低 的 价格 
范围 内 销售 葡萄 酒 才 行 。 
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使 用 真实 数据 一 eBay API 


} $ Drain Anpa +f PN BETE A g 
Using REal Li a— iNe Org] ; AF 


eBay 是 一 个 在 线 的 拍卖 网 站 ， 也 是 互联 网 上 最 受 欢迎 的 站 点 之 一 。 它 拥有 数 以 百 万 计 的 商 
品名 目 ， 还 有 数 以 百 万 计 的 用 户 参 与 竞拍 ， 并 一 起 制定 价格 ,这些 都 使 得 eBay 成 为 了 集体 
智慧 的 一 个 绝 佳 的 应 用 案例 。 恰好， eBay 也 有 免费 的 基于 XML 的 API, 我 们 可 以 利用 它 来 
进行 搜索 ， 取 得 商品 的 详细 信息 ， 并 提交 供出 售 的 商品 。 在 本 节 中 ， 我 们 将 会 看 到 如 何 利 
用 eBay API 来 获得 商品 的 价格 数据 ， 并 对 数据 进行 转换 ， 以 便 能 够 使 用 本 章 中 的 算法 来 进 
行 预测 。 


获取 开发 者 密 


$ f Wr . j 
Geti Q a VEVEIODR! AeY 
i L $. 


访问 eBay API 的 流程 需要 若干 个 步 驹 ， 不 过 这 是 相当 简单 和 自动 化 的 。 有 关 流 程 的 一 个 很 
好 的 综述 性 文档 ， 请 见 在 线 的 “快速 指南 ”， 该 指南 位 于 jhttpWaeveloper.ebay.comW 
quickstartguide 处 。 


该 指南 将 向 你 介绍 整个 流程 的 执行 过 程 , 包括 : 建立 开发 者 账号 、 获 得 生产 密 钥 (production 
keys), Gh (token)。 待 上 述 工作 完成 之 后 ， 我 们 手中 应 该 拥有 4 个 字 串 ， 它 们 是 运 
行 本 章 示 例 所 必需 的 。 

© 开发 者 密 钥 

。 AMEH 

。 ”证 书 密 钥 

e «ee DIATE HR (authentication token) 

请 新 建 一 个 名 为 ebaypredict py 的 文件 ， 并 加 入 如 下 代码 ， 这 些 代 码 引 入 了 某 些 外 部 模块 ， 
并 将 上 述 字 串 包含 了 进来 : 


import httplib 
from xml.dom.minidom import parse, parseString, Node 


devKey = ‘'developerkey' 
appKey = ‘applicationkey' 


certKey = ‘'certificatekey' 
userToken = 'token' 
serverUrl = ‘'api.ebay.com' 


虽然 , 目前 还 没有 官方 的 针对 eBay 的 Python API 出 现 , 不 过 eBay 提供 了 XML 的 API, 我 
们 可 以 利用 httplib 和 minidom 对 eBay API 进行 访问 。 本 节 我 们 将 只 介绍 eBay API 中 的 两 个 
调用 , GetSearchResults 和 GetItem, 不 过 此 处 给 出 的 大 多 数 代码 都 可 以 被 复 用 于 其 他 调 
用 。 有 关 这 套 API 所 支持 的 全 部 调用 的 更 多 信息 ， 可 以 查看 位 于 http-//developer.ebay.com 
/DevZone/XML/docs/WebHelp/index.htm 处 的 完整 文档 。 
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建立 连接 


Setting Up a Connection 


一 旦 得 到 了 密 钥 ， 我 们 就 可 以 建立 一 个 指向 eBay API 的 连接 。eBay API 要 求 我 们 向 它 传递 
大 量 的 头 信息 (headers) ， 其 中 包括 密 钥 和 即将 要 发 起 的 调用 。 为 此 ， 请 建立 一 个 名 为 
getHeaders 的 函数 ， 接 受 一 个 调用 名 称 作 为 参数 ， 并 返回 一 个 包含 头 信息 的 字典 ， 我 们 可 
以 将 这 个 字典 传递 给 httplib。 请 将 该 函数 加 入 ebaypredict.py 中 : 


def getHeaders (apicall,siteID="0",compatabilityLevel = "433"): 

headers = {"X-EBAY-API-COMPATIBILITY-LEVEL": compatabilityLevel, 
"X-EBAY-API-DEV-NAME": devKey, 
"X-EBAY-API-APP-NAME": appKey, 
"X-EBAY-API-CERT-NAME": certKey, 
“X-EBAY-API-CALL-NAME": apicall, 
“X-EBAY-API-SITEID": siteID, 
"Content-Type": “text/xml"} 

return headers 


除了 头 信 息 外 ，eBay API 还 要 求 针 对 我 们 所 发 起 的 请 求 ， 发 送 一 段 带 有 参数 信息 的 XML 
数据 。 它 会 相应 地 返回 一 个 XML 文档 ， 我 们 可 以 利用 minidom 库 中 的 parseString 对 其 进 
行 解析 。 


发 送 请 求 的 函数 会 打开 一 个 指向 服务 器 端的 连接 ， 并 提交 带 参数 信息 的 XML， 然后 再 对 返 
回 结果 进行 解析 。 请 将 sendrequest 加 入 ebaypredict.py: 


def sendRequest (apicall,xmlparameters): 
connection = httplib.HTTPSConnection(serverUr1) 
connection. request ("POST", '/ws/api.dll', xmlparameters, getHeaders (apicall)) 
response = connection.getresponse () 
if response.status != 200: 
print “Error sending request:" + response.reason 
else: 
data = response.read() 
connection.close() 
return data 


我 们 可 以 利用 上 述 函 数 对 eBay API 发 起 任何 形式 的 调用 。 对 于 不 同 的 API 调用 ， 我 们 须要 
生成 用 于 发 起 请 求 的 XML， 并 对 解析 后 的 结果 加 以 解释 。 


由 于 解析 DOM 的 过 程 有 些 索然 无 味 ， 所 以 我 们 还 应 该 建立 一 个 简单 的 辅助 函数 ， 
getSsingleValue， 该 函数 用 于 查找 节点 并 返回 节点 对 应 的 内 容 ; 


def getSingleValue (node, tag): 
nl=node.getElementsByTagName (tag) 
if len(nl)>0: 
tagNode=n1 [0] 
if tagNode.hasChildNodes (): 
return tagNode.firstChild.nodeValue 
return '-1' 
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执行 搜索 
Performing a Search 


执行 一 次 搜索 ， 就 是 为 GetSearchResults AY API 调用 构造 XML 参数 ， 并 将 其 传人 此 前 
定义 好 的 sendrequest 函数 。XML 参数 的 格式 如 下 所 示 : 


<GetSearchResultsRequest xmlns="urn:ebay:apis:eBLBaseComponents"> 
<RequesterCredentials><eBayAuthToken>token</eBayAuthToken></RequesterCredentials> 
<parameter1>value</parameterl1> 

<parameter2>value</parameter2> 

</GetSearchResultsRequest> 


我 们 可 以 为 该 API 调用 传人 许多 参数 ， 不 过 在 本 章 的 例子 里 ， 我 们 将 只 考查 其 中 的 两 个 参数 ; 


Query 


这 是 一 个 包含 搜索 词 条 的 字符 串 。 使 用 该 参数 就 如 同 在 eBay 的 主页 上 手工 进行 搜索 一 
样 。 


CategoryID 


这 是 一 个 数字 ， 它 指定 了 我 们 想 要 搜索 的 分 类 。eBay 有 一 个 巨大 的 分 类 层次 结构 ， 你 
可 以 利用 Getcategories API 调用 来 请 求 这些 信 息 。 我 们 可 以 单独 使 用 这 一 参数 ， 也 
可 以 与 参数 Query 结合 使 用 。 


PAM dosearch 接受 上 述 两 个 参数 ， 并 执行 一 次 搜索 。 随 后 ， 它 会 返回 一 个 商品 ID 的 列表 
( 稍 后 我 们 将 在 Getitem 调用 中 用 到 它 )， 以 及 这 些 商品 的 描述 信息 和 当前 的 价格 。 请 将 
doSearch 加 入 ebaypredict.py 中 


def doSearch (query, categoryID=None, page=1): 

xml = “<?xml version='1.0' encoding='utf£-8'?>"+\ 
"<GetSearchResultsRequest xmlns=\"urn:ebay: apis: eBLBaseComponents\">"+\ 
"<RequesterCredentials><eBayAuthToken>" +\ 
userToken +\ 
"</eBayAuthToken></RequesterCredentials>" + \ 
“<Pagination>"+\ 

"<EntriesPerPage>200</EntriesPerPage>"+\ 
"<PageNumber>"+str (page) +"</PageNumber>"+\ 
"</Pagination>"+\ 
"<Query>" + query + "</Query>" 
if categoryID!=None: 
xml+="<CategoryID>"+str (categoryID) +"</CategoryID>" 
xml+="</GetSearchResultsRequest>" 


data=sendRequest ('GetSearchResults',xml) 

response = parseString (data) 

itemNodes = response.getElementsByTagName('Item') ; 

results = [j] 

for item in itemNodes: 
itemId=getSingleValue (item, 'ItemID') 
itemTitle=getSingleValue (item, 'Title') 
itemPrice=getSingleValue (item, 'CurrentPrice') 
itemEnds=getSingleValue (item, 'EndTime') 
results.append((itemId, itemTitle, itemPrice, itemEnds) ) 

return results 
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为 了 使 用 分 类 参数 ， 我 们 还 需要 一 个 获取 分 类 层次 信息 的 函数 。 这 又 是 一 个 简单 的 API 调 
用 ， 只 不 过 涉及 全 部 分 类 数据 的 XML 文件 非常 庞大 ， 下 载 须要 花费 很 长 的 时 间 ， 并且 解 析 
难度 也 非常 的 大 。 因 此 ， 我 们 打算 将 分 类 数据 的 范围 限制 在 人 们 通常 所 关注 的 那 一 部 分 内 
容 。 


函数 getcategory 接受 一 个 字符 串 和 一 个 父 分 类 ID 作为 参数 ， 并 返回 位 于 父 分 类 下 的 包 
含 该 字符 串 的 所 有 分 类 。 如 果 父 四 缺失 ， 则 函数 只 会 给 出 包含 所 有 顶层 分 类 的 列表 。 请 将 
该 函数 加 入 ebaypredict.py 中 : 


def getCategory (query='',parentID=None, siteID='0'): 
lquery=query. lower () 

xml = "<?xml version='1.0' encoding='utf-8'?>"+\ 
"<GetCategoriesRequest xmlns=\"urn:ebay:apis:eBLBaseComponents\">"+\ 
“<RequesterCredentials><eBayAuthToken>" +\ 
userToken +\ 
"</eBayAuthToken></RequesterCredentials>"+\ 
"<DetailLevel>ReturnAll</DetailLevel>"+\ 
"<ViewAllNodes>true</ViewAl1lNodes>"+\ 
"“<CategorySiteID>"+siteID+"</CategorySitelID>" 

if parentID==None: 

xml+="<LevelLimit>1</LevelLimit>" 
else: 
xml+="<CategoryParent>"+str(parentID) +"</CategoryParent>" 

xml += "</GetCategoriesRequest>" 

data=sendRequest ('GetCategories',xml) 

categoryList=parseString (data) 

catNodes=categoryList.getElementsByTagName ('Category') 
for node in catNodes: 
catid=getSingleValue (node, 'CategoryID') 
name=getSingleValue (node, 'CategoryName') 
if name.lower().find(lquery) !=-1; 
print catid,name 


现在 ， 我 们 可 以 在 自己 的 Python 会 话 中 尝试 执行 该 函数 了 : 


>>> import ebaypredict 
>>> laptops=ebaypredict.doSearch('laptop') 
>>> laptops[0:10] 

[ (u'110075464522", u'Apple iBook G3 12" SOOMHZ Laptop , 30 GB HD ', u'299.99', 
u'2007-01-11T03:16:14.000Z"), 

(u'150078866214', u'512MB PC2700 DDR Memory 333MHz 200-Pin Laptop SODIMM', u'49.99', 
u'2007-01-11T03:16:27.0002'), 

(u’'120067807006', u*LAPTOP USB / PS2 OPTICAL MOUSE 800 DPI SHIP FROM USA', u 
"4.99", w'2007-01-11T03:17:00.0002"), 


哦 ， 看 起 来 搜索 “laptop” 的 返回 结果 中 包含 了 各 种 与 膝 上 型 电脑 关系 不 是 很 大 的 附件 

(accessories)。 所 幸 的 是 ， 我 们 可 以 搜索 “Laptops，Notebooks” 分 类 ， 将 搜索 范围 限制 在 
与 膝 上 型 电脑 真正 相关 的 内 容 之 中 。 为 此 ， 我 们 首先 须要 获取 顶层 的 分 类 列表 ， 然 后 在 
“Computers & Networking” 范 围 内 进行 搜索 ， 找 到 涉及 膝 上 型 电脑 的 分 类 ITD， 然后 我 们 就 
可 以 在 正确 的 分 类 范围 内 搜索 “laptop” 了 : 
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>>> ebaypredict.getCategory('computers') 

58058 Computers & Networking 

>>> ebaypredict.getCategory('laptops' ,parentID=58058) 
25447 Apple Laptops, Notebooks 


31533 Drives for Laptops 

51148 Laptops, Notebooks... 

>>> laptops=ebaypredict.doSearch('laptop' ,categoryID=51148) 

>>> laptops[0:10] 

{ (u'150078867562', u'PANASONIC TOUGHBOOK Back-Lit KeyBoard 4 CF-27 CF-28', 
u'49.95", u'2007-01-11T03:19:49.0002'), 

(u'270075898309', u'mini small PANASONIC CFM33 CF M33 THOUGHBOOK ! libretto’, 
u'171.0', uw'2007-01-11T03:19:59.0002'), 
(u' 170067141814", u'Sony VAIO "PCG-GT1" Picturebook Tablet Laptop MINT ', 
u'760.0', u'2007-01-11T03:20:06.000Z'),... 


在 本 书 撰写 期 间 ，eBay LAX “Laptops, Notebooks” 分 类 的 ID 一 共有 51148 个 。 你 可 以 看 
到 ， 我 们 通过 只 查询 “laptop”， 将 搜索 范围 限制 在 了 “1laptop” 分 类 范围 内 ， 从 而 减少 
了 大 量 无 关 的 搜索 结果 。 这 种 搜索 行为 与 搜索 结果 的 高 度 一 致 性 ， 使 得 我 们 的 数据 集 非 常 
适合 为 价格 模型 所 用 。 


获取 商品 明细 


Getting Details for an Item 


搜索 结果 中 的 列表 给 出 了 商品 的 名 目 和 价格 ， 也 许 我 们 可 以 从 描述 商品 名 目的 文字 中 提取 
出 诸如 “容量 ”或 “颜色 ”这 样 的 详细 信息 来 。eBay 也 提供 了 针对 不 同 商品 类 型 的 各 种 属 
性 信息 。 一 台 膝 上 型 电脑 可 以 列举 的 属性 包括 处 理 器 类 型 和 所 安装 的 RAM $, 而 一 个 iPod 
则 可 以 包含 诸如 体积 这 样 的 属性 。 除 了 这 些 细节 信息 之 外 ， 我 们 还 可 以 获取 到 诸如 卖家 评 
价 情况 、 参 与 竞价 数 ， 以 及 起 步 价 等 信息 。 


为 了 得 到 这 些 细节 信息 , 我 们 须要 发 起 一 个 针对 GetItem 的 eBay API 调用 , 并 提供 一 个 由 搜 
索 函 数 返 回 的 商品 ID 作为 参数 。 为 此 , 请 在 ebaypredict py 中 新 建 一 个 名 为 get Item 的 函数 


def getItem(itemID): 

xml = “<?xml version='1.0' encoding='utf-8'?>"+\ 
"<GetItemRequest xmins=\"urn:ebay:apis:eBLBaseComponents\">"+\ 
"<RequesterCredentials><eBayAuthToken>" +\ 
userToken +\ 
"</eBayAuthToken></RequesterCredentials>" + \ 
“<ItemID>" + str({itemID) + “</ItemID>"+\ 
"<DetailLevel>ItemReturnAttributes</DetailLevel>"+\ 


"</GetItemRequest>" 
data=sendRequest ('GetItem', xml) 
result={} 


response=parseString (data) 

result ('title']=getSingleValue(response, 'Title’) 

sellingStatusNode = response.getElementsByTagName ('SellingStatus') [0]; 
result ['price')=getSingleValue(sellingStatusNode, 'CurrentPrice') 
result ['bids']=getSingleValue(sellingStatusNode, 'BidCount') 
seller = response.getElementsByTagName('Seller') 
result['feedback'] = getSingleValue(seller[0], 'FeedbackScore') 





使 用 真实 数据 一 一 eBay AP! | 193 


ww ai bbt. com DODOOODODOD 


attributeSet=response.getElementsByTagName ('Attribute'); 

attributes={} 

for att in attributeSet: 
attID=att.attributes.getNamedItem('attributeID') .nodeValue 
attValue=getSingleValue (att, 'ValueLiteral') 
attributes [attID]=attValue 

result['attributes']=attributes 

return result 


上 述 函 数 利 用 sendrequest 取 到 商品 的 XML 数据 ， 然 后 从 中 解析 出 感 兴趣 的 部 分 。 由 于 
每 件 商品 的 属性 都 不 尽 相 同 ， 所 以 它们 将 被 包含 在 一 个 字典 中 一 并 返回 。 我 们 可 以 针对 自 
己 搜 索 得 到 的 某 件 商品 ， 尝 试 执行 一 下 该 函数 : 


>>> xeload(ebayPredict) 

>>> ebaypredict.getItem(laptops [7] [0]) 

{'attributes'’: {u'l3': u'Windows XP‘, u'l2': u'512', u'14': u'Compag', 
u'3805': u'Exchange', u‘'3804': u'l4 Days’, 
u'4l': u'-', u'26445': u'DVD+/-RW', u'25710': u'80.0', 
u'26443': u‘AMD Turion 64', u'26444': u'1800', u'26446': u'15', 
u'10244': urat], 

"price': u*Sis.0', ‘bids’: u'28', *feedback': u'Z797', 

‘title’: u'COMPAQ V5210US 15.4" AMD Turion 64 80GB Laptop Notebook' } 


从 上 述 结果 中 我 们 可 以 看 出 ， 属 性 26 444 代表 处 理 器 速度 ，26 446 代表 屏幕 尺寸 ，12 代表 
安装 的 RAM, 而 25 710 则 代表 了 硬盘 尺寸 。 除 了 卖家 评价 情况 外 ,还 有 参与 竞价 数 ， 以 及 
起 步 价 ， 这 些 内 容 共同 构成 了 一 个 具有 潜在 吸引 力 的 数据 集 ， 我 们 可 以 将 其 用 于 价格 预测 。 


构造 价格 预测 程序 


Building a Price Predictor 


为 了 利用 我 们 在 本 章 中 构造 好 的 预测 程序 ， 我 们 须要 选取 一 组 来 自 eBay 的 商品 数据 ， 并 将 
它们 转换 成 一 系列 数值 列表 ， 以 数据 集 的 形式 传人 交叉 验证 函数 中 。 为 此 ， 下 面 的 
makeLaptopDataset 国 数 首先 调用 doSearch 获取 到 一 个 涉及 膝 上 型 电脑 的 商品 清单 ， 然 
后 针对 其 中 的 每 一 件 商 品 单独 发 起 请 求 。 利 用 我 们 在 上 一 节 中 确立 的 商品 属性 ， 该 函数 构 
造 了 一 个 预测 用 的 数值 列表 ， 并 将 这 些 数 据 放 人 了 一 个 kNN 函数 所 要 求 的 数据 结构 中 。 


请 将 makeLaptopDataset 加 入 ebaypredict.py 中 ; 


def makeLaptopDataset () : 
searchResults=doSearch ('laptop', categoryID=51148) 
result=[] 
for r in searchResults: 
item=getItem(r[0]) 
att=item['attributes'] 
try: 
data=(float(att('1l2']), float (att['26444"'}), 
float (att[('26446']),float(att[('25710')), 
float (item[' feedback']) 
) 
entry={‘input':data, 'result’:float(item['price'"]) } 
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result.append(entry) 
except: 
print item['title']+' failed’ 
return result 


在 上 面 的 函数 里 ， 任 何 商品 如 果 没 有 包含 必须 具备 的 属性 ， 都 将 被 图 数 所 忽略 。 整 个 下 载 
和 处 理 的 过 程 可 能 会 花 去 一 定 的 时 间 ， 但 是 我 们 将 得 到 一 个 很 有 意思 的 包含 真实 价格 信息 
与 属性 信息 的 数据 集 ， 以 供 预 测 之 用 。 为 了 取得 数据 ， 请 在 你 的 Python 会 话 中 调用 上 述 孙 
数 : 

>>> reload(ebaypredict) 


<module ‘ebaypredict' from 'ebaypredict.py'> 
>>> setl=ebaypredict.makeLaptopDataset () 


现在 ， 我 们 可 以 选择 不 同 的 配置 参数 ， 尝 试 利用 KNN 进行 估价 了: 


>>> numpredict.knnestimate (setl, (512,1000,14,40,1000)) 
667.89999999999998 

>>> numpredict.knnestimate (setl, (1024,1000,14,40,1000)) 
858.42599999999982 

>>> numpredict.knnestimate(setl, (1024,1000,14,60,0)) 
482.02600000000001 

>>> numpredict.knnestimate (setl1, (1024,2000,14,60,1000)) 
1066.8 


上 面 给 出 了 一 些 估价 的 结果 , 这 些 结果 受到 了 不 同 的 RAM 数量 、 处 理 器 速度 , 以 及 反馈 评 
分 的 影响 。 我 们 可 以 选择 不 同 的 变量 值 进行 试验 ， 对 数据 按 比 例 缩放 ， 并 绘制 概率 分 布 。 
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When to Use k-Nearest Neighbors 


k- 最 近邻 算法 也 存在 一 些 不 足 之 处 。 因 为 算法 须要 计算 针对 每 个 点 的 距离 , 因此 预测 过 程 的 
计算 量 很 大 。 而 且 ， 在 一 个 包含 有 许多 变量 的 数据 集中 ， 我 们 可 能 很 难 确定 合理 的 权重 值 ， 
也 很 难 决定 是 否 应 该 去 除 某 些 变 量 。 优 化 可 能 有 助 于 解决 这 一 问题 ， 但 是 对 于 大 数据 集 而 
言 ， 寻 找 一 个 优 解 可 能 会 花费 非常 长 的 时 间 。 


尽管 如 此 ， 正 如 你 在 本 章 中 看 到 的 ，KNN 较 之 其 他 方法 还 是 有 一 定 优势 的 。 关 于 预测 计算 
量 非 常 大 这 一 特点 ， 也 有 其 好 的 一 面 ， 那 就 是 我 们 可 以 在 无 须 任 何 计算 开销 的 前 提 下 将 新 
的 观测 数据 加 入 到 数据 集中 。 要 正确 地 解释 这 一 点 也 很 容易 ， 因 为 我 们 知道 算法 是 在 使 用 
其 他 观测 数据 的 加 权 值 来 进行 预测 的 。 


尽管 确定 权重 可 能 是 需要 技巧 的 ， 但 是 一 旦 确定 了 最 佳 的 权重 值 ， 我 们 就 可 以 凭借 这 些 信 
息 更 好 地 掌握 数据 集 所 具备 的 特征 。 最 后 ， 当 我 们 怀疑 数据 集中 还 有 其 他 无 法 度量 的 变量 
时 ， 我 们 还 可 以 建立 概率 函数 。 
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练习 


Exercises 


L. 


2. 


U3 


D 


对 近邻 数 进行 优化 ”构造 一 个 优化 用 的 成 本 函数 , 为 简单 数据 集 确 定 一 个 理想 的 近邻 数 。 


留 一 式 (Leave-one-out) 交叉 验证 ” 留 一 式 交叉 验证 是 另 一 种 计算 预测 误差 的 方法 ， 它 
将 数据 集中 的 每 一 行 单独 看 作 一 个 测试 集 ， 并 将 数据 集 的 剩余 部 分 都 看 作 训 练 集 。 请 实 
现 一 个 完成 此 功能 的 函数 。 将 其 与 本 章 中 介绍 的 方法 试 做 对 比 。 


. 削减 变量 ”除了 面 对 一 大 群 有 可 能 毫 无 用 处 的 变量 ， 试 图 去 优化 它们 的 缩放 比例 外 ， 我 


们 还 可 以 在 事前 先 试 着 消除 一 些 可 能 会 导致 预测 效果 不 彰 的 变量 。 你 能 否 找 到 相应 的 方 
法 呢 ? 


. 调整 概率 图 形 的 ss 值 probabilityguess 中 的 ss 参数 指示 了 概率 图 的 平 请 程度 。 如 


果 这 一 参数 的 取 值 过 高 会 怎样 ? 过 低 又 会 如 何 ? 你 能 在 不 看 图 形 的 前 搓 下 找到 一 种 办 计 
来 确定 ss 的 合理 值 吗 ? - 


. 膝 上 型 电脑 的 数据 集 ”请 尝试 为 取 自 eBay 网 站 的 膝 上 型 电脑 的 数据 集 做 一 下 优化 ,看 看 


哪些 变量 是 重要 的 ? 请 尝试 运行 一 下 绘制 概率 密度 的 相关 函数 。 看 看 是 否 存在 任何 值得 
注意 的 波峰 ? 


. 其 他 商品 种 类 eBay 上 还 有 哪些 其 他 具有 适宜 的 数值 型 属性 的 商品 呢 ?iPod .移动 电话 ， 


还 有 汽车 ， 这 些 商 品 都 包含 了 许多 值得 关注 的 信息 。 请 试 着 再 构造 一 个 数据 集 ， 来 进行 
数值 型 预测 。 


. 搜索 属性 ”许多 eBay API 所 具备 的 功能 都 没有 在 本 章 中 介绍 到 。GetsearchResults iH 


用 包含 了 许多 选项 ， 其 中 有 一 项 是 将 搜索 限制 在 个 别 属性 范围 内 。 请 修改 相应 的 函数 以 
支持 这 一 功能 ， 并 试 着 将 查询 范围 限定 在 酷 害 (Core Duo) 膝 上 型 电脑 。 
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第 9 章 
高 阶 分 类 : BAIS SVM 
Advanced Classification: 
Kernel Methods and SVMs 


前 面 几 章 已 经 探讨 了 若干 种 分 类 器 ， 包 括 决策 树 、 贝 叶 斯 分 类 器 和 神经 网 络 。 本 章 将 引入 
线性 分 类 器 和 核 方法 的 概念 ， 并 以 此 为 铺垫 进而 向 大 家 介绍 一 种 最 为 高 阶 的 分 类 器 ， 同 时 
这 也 是 目前 仍然 处 于 活跃 状态 的 一 个 研究 领域 ， 我 们 称 之 为 支持 向 量 机 (SVMs) 。 


本 章 中 出 现 的 数据 集 所 涉及 的 ， 几 乎 都 是 关于 如 何 为 约会 网 站 的 用 户 寻 找 配对 。 给 定 两 人 
MAE, BATEZ HANH I LACIE? 这 是 一 个 值得 关注 的 问题 ， 因 为 其 
中 包含 了 许多 变量 ， mA a j 和 有 各 词性 的 ， 还 有 大 量 的 线性 关系 。 我 们 将 选用 
这 样 的 数据 集 来 为 大 家 示 东 6 蔬 守 六 种 分 类 器 的 其 及 怎样 对 数据 集 进行 调整 才能 
SEAT HE HELMET. T ERNEA TAA 个 重要 的 事实 ， 那 就 是 : 将 一 
个 复杂 数据 集 扔 给 一 个 算法 各 sa a. 同行 精确 分 类 ， 这 几乎 是 不 可 
能 的 。 选 择 正确 的 算法 ， a 
需 的 。 笔 者 希望 通过 对 本 到 Hae to, agen W Aca JE rb i S 
提供 有 益 的 启示 。 X >g 
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。 是 否 要 孩子 ? 
。 ”兴趣 列表 
。 KEE 


不 仅 如 此 ， 这 个 站 点 所 收集 的 信息 还 包括 : 两 个 人 是 否 已 经 成 功 配对 ， 他 们 是 否 已 经 开始 
交往 ， 以 及 是 否决 定 见面 。 我 们 就 是 利用 这 些 数据 来 构造 婚介 数据 集 的 。 这 里 有 两 个 文件 
可 供 下 载 : 


http://kiwitobes.com/matchmaker/agesonly.csv 
http://kiwitobes.com/matchmaker/matchmaker.csv 


matchmakercsv 文件 如 下 所 示 ， 


39, yes, no, skiing:knitting:dancing, 220 W 42nd St New York 

NY, 43, no, yes, soccer:reading:scrabble,824 3rd Ave New York NY,0 
23,no,no, football:fashion,102 1st Ave New York 

NY, 30, no, no, snowboarding: knitting:computers:shopping:tv:travel, 
151 W 34th St New York NY,1 
50,no,no,fashion:opera:tv:travel,686 Avenue of the Americas 

New York NY, 49, yes, yes, soccer: fashion: photography: computers: 
camping:movies:tv,824 3rd Ave New York NY,0 


上 面 每 一 行 数据 都 对 应 于 一 位 男士 和 女士 的 信息 ， 最 后 一 列 用 1 或 0 来 代表 是 否认 为 两 人 
配对 成 功 。( 笔 者 很 清楚 此 处 的 题 设 是 经 过 了 简化 的 ; 计算 机 模型 总 是 不 及 真实 生活 那么 复 
杂 )。 对 于 一 个 拥有 大 量 用 户 信 息 的 网 站 而 言 , 或 许可 以 利用 这 些 信息 来 构造 一 个 预测 算法 ， 
帮助 用 户 寻 找 可 以 与 之 配对 的 其 他 人 。 算 法 或 许 还 可 以 找 出 站 点 目前 正 欠 缺 的 某 些 特定 类 
型 的 人 群 ， 这 些 人 在 面向 新 成 员 的 网 站 推广 策略 中 ， 将 会 起 到 很 大 的 作用 。 因 为 两 个 变量 
更 容易 将 问题 解释 清楚 ， 所 以 agesonly.csv 文件 只 包含 了 基于 年 龄 的 配对 信息 ， 接 下 来 我 们 
将 利用 这 一 信息 来 演示 分 类 器 的 工作 原理 。 


第 一 步 我 们 来 编写 一 个 加 载 数据 集 的 函数 。 该 函数 的 工作 仅仅 是 将 所 有 字段 读 和 人 一 个 列表 
而 已 , 但 是 出 于 实验 的 目的 ， 函 数 还 提供 了 一 个 可 选 的 参数 ， 用 以 有 选择 地 加 载 个 别 字段 。 
请 新 建 一 个 名 为 advancedclassify.py 的 文件 ,然后 将 matchrow 和 1loadmatch 国 数 加 和 人 其中: 


class matchrow: 
def _init  _ (self, row,allnum=False) : 
if allnum: 
self.data=[float(row[{i]) for i in range({len{row)=-1) ] 
else: ws 
self.data=row[0:len(row)-1] 
self.match=int (row[len(row)-1]) 


def loadmatch(f,allnum=False): 
rows=[] 
for line in file(f): 
rows.append(matchrow(line.split(','),allnum) ) 
return rows 
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loadmatch 的 作用 是 构造 一 个 matchrow 类 的 列表 ， 列 表 中 的 每 一 项 元 素 均 包含 了 原始 数 
据 ， 以 及 有 关 是 否 配对 成 功 的 信息 。 下 面 我 们 分 别 利 用 该 函数 来 加 载 只 包含 年 龄 信息 和 亿 
完整 信息 的 婚介 数据 集 : 


>>> import advancedclassify 
>>> agesonly=advancedclassify.loadmatch ('agesonly.csv' ,allnum=True) 
>>> matchmaker=advancedclassify.loadmatch ('matchmaker.csv') 


数据 中 的 难点 
Difficulties with the Data 


上 述 数 据 集 有 两 个 值得 注意 的 地 方 ， 那 就 是 变量 的 相互 作用 和 非 线性 特点 。 如 果 已 经 安装 
了 第 8 章 中 的 matplotlib(http//matplotlib.sourceforge.net), 那么 就 可 以 利用 advancedclassify， 
对 某 些 变量 进行 可 视 化 ， 并 从 中 生成 两 个 包含 坐标 值 信息 的 列表 。( 这 一 步骤 对 于 完成 本 章 
剩余 部 分 的 内 容 并 不 是 必需 的 。) 请 在 你 的 Python 会 话 中 尝试 之 : 
from pylab import * 
def plotagematches (rows): 
xdm, ydm=(r.data[0] for r in rows if r.match==1],\ 
{c.data[1] for r in rows if r.match==1] 
xdn, ydn=[r.data[0] for r in rows if r.match==0],\ 
[r.data[1] for r in rows if r.match==0] 


plot (xdm, ydm, 'go') 
plot (xdn, ydn, 'ro') 


show {) 


请 在 你 的 Python 会 话 中 调用 上 述 方法 : 


>>> reload (advancedclassify) 
<module 'advancedclassify' from ‘advancedclassify.py'> 
>>> advancedclassify.plotagematches (agesonly) 


执行 上 述 命令 将 会 生成 一 个 涉及 男性 与 女性 年 龄 对 比 情 况 的 散布 图 。 如 果 两 两 匹配 ， 则 相 
应 坐标 点 将 标 以 9, 否则 就 标 以 X。 我 们 将 得 到 一 个 如 下 页 图 9-1 Brash “ff” (window), 


尽管 很 显然 还 有 许多 其 他 因素 会 对 两 个 人 是 否 成 功 匹配 构成 影响 ， 但 上 图 却 是 根据 简化 了 
的 只 包含 年 龄 信息 的 数据 集 绘 制 而 成 的 ， 并 且 它 还 给 出 了 一 条 明显 的 边界 ， 表 明 人 们 不 会 
去 寻找 远 远 超出 其 年 龄 范围 内 的 人 进行 配对 。 图 上 的 边界 看 上 去 似乎 还 有 些 曲 折 ， 并 且 年 
龄 越 大 边界 就 越 不 清晰 ， 这 表明 人 们 的 年 龄 越 见长 就 越 能 忍受 更 大 的 年 龄 差距 。 


Re ， 


Decis OF Ties SS 村 ie 


第 7 章 提 到 了 决策 树 分 类 器 ， 我 们 利用 树 来 尝试 对 数据 进行 自动 分 类 。 在 那 一 章 中 ， 我 们 
所 介绍 的 决策 树 算法 是 根据 数值 边界 来 对 数据 进行 划分 的 。 当 我 们 可 以 借助 带 有 两 个 变量 
的 函数 来 更 精确 地 表达 分 界线 (dividing line) 时 ， 问 题 也 就 随 之 而 来 了 。 在 本 例 中 ， 选 择 
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生成 的 年 龄 散布 图 


图 9-1: 


行 决策 训练 将 会 得 到 


， 直 接 对 数据 进 


试想 


行 预测 会 更 加 地 稳妥 


两 人 的 年 龄 差 作 为 变量 进 
如 图 9-2 所 示 的 结果 。 





9-2: 反映 曲折 边界 的 决策 树 
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上 述 结果 对 于 解释 决策 的 过 程 显然 没有 任何 用 处 。 这 棵 决策 树 也 许 对 自动 分 类 会 有 帮助 ， 
但 是 这 样 做 太 麻 烦 也 太 死 板 了 。 假 如 我 们 考虑 除 年 龄 之 外 的 其 他 变量 ， 结 果 甚 至 有 可 能 会 
变 得 令 人 更 加 难以 理解 。 为 了 明白 决策 树 到 底 做 了 些 什 么 ， 让 我 们 来 看 一 下 散布 图 ， 以 及 
根据 决策 树 生成 的 决策 边界 ， 如 图 9-3 所 示 。 





图 9-3: 根据 决策 树 生 成 的 边界 线 


决策 边界 是 这 样 一 条 线 : 位 于 这 条 线 一 侧 的 每 一 个 点 会 被 赋予 某 个 分 类 ， 而 位 于 另 一 侧 的 
每 一 个 点 会 被 赋 于 另 一 个 分 类 。 从 图 中 我 们 可 以 清晰 地 看 到 ， 决 策 树 的 约束 条 件 使 边界 线 
呈现 出 垂直 或 水 平 向 的 分 布 。 


此 处 有 两 个 要 点 。 其 一 是 ， 在 没有 和 弄 清 楚 数 据 本 身 的 含义 及 如 何 将 其 转换 成 更 易于 理解 的 
形式 之 前 ， 轻 率 地 使 用 提供 给 我 们 的 数据 是 错误 的 。 建 立 散 布 图 有 助 于 我 们 找到 数据 真正 
的 划分 方式 。 其 二 是 ， 尽 管 第 7 章 介 绍 的 决策 树 有 其 自身 的 优势 ， 但 是 在 确定 问题 的 分 类 
时 ， 如 果 存在 多 个 数值 型 给 入， 且 这 些 输 入 彼此 闻 所 呈 现 的 关系 并 不 简单 ， 决 策 树 则 常常 
不 是 最 有 效 的 方法 。 
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基本 的 线性 分 类 
Basic Linear Classification 


虽然 线性 分 类 是 分 类 器 中 最 简单 的 一 种 ， 但 是 这 对 于 我 们 的 后 续 讨 论 是 一 个 很 好 的 基础 。 
线性 分 类 的 工作 原理 是 寻找 每 个 分 类 中 所 有 数据 的 平均 值 ， 并 构造 一 个 代表 该 分 类 中 心 位 
置 的 点 。 然 后 我 们 就 可 以 通过 判断 距离 哪个 中 心 点 位 置 最 近来 对 新 的 坐标 点 进行 分 类 了 。 


为 了 实现 上 述 功能 ， 我 们 首先 需要 一 个 函数 来 计算 分 类 的 均值 点 (average point)。 在 本 例 
中 , .所 谓 的 分 类 就 是 0 和 LI。 请 将 lineartrain 加 入 advancedclassify.py 中 |， 
def lineartrain(rows): 


averages={} 
counts={} 


for row in rows: 


# 得 到 该 坐标 点 所 属 的 分 类 


cl=row.match 


averages.setdefault (cl, [0.0)* (len (row.data) ) ) 
counts.setdefault (cl,0) 


E 将 该 坐标 点 加 入 averages 中 
for iin range(len(row.data)): 
averages([cl] [i]+=float (row.data[i]) 


# 记录 每 个 分 类 中 有 多 少 坐 标点 


counts[cl]+=1 


# 将 总 和 除 以 计数 值 以 求 得 平均 值 
for cl,avg in averages.items(): 
for i in range(len(avg)): 
avg[i]/=counts[cl] 


return averages 
我 们 可 以 在 自己 的 Python 会 话 中 运行 上 述 函 数 ， 以 求 得 平均 值 ; 
>>> reload (advancedclassify) 


<module ‘advancedclassify’ from ‘advancedclassify.pyc'> 
>>> avgs=advancedclassify.lineartrain (agesonly) 


为 了 明白 线性 分 类 所 起 的 作用 ， 我 们 再 来 看 一 看 年 龄 数据 的 分 布 图 ， 如 下 页 图 9-4 所 示 。 


图 中 的 X 表 示 由 1ineartrain 计算 求 得 的 均值 点 ,划分 数据 的 直线 位 于 两 个 X 的 中 间 位 置 。 
这 意味 着 ， 所 有 位 于 直线 左 侧 的 坐标 点 都 更 接近 于 表示 “不 相 匹 配 (no match)” 的 均值 点 ， 
而 所 有 位 于 右 侧 的 坐标 点 则 都 更 接近 于 表示 “ 相 匹 配 (match) ”的 均值 点 。 任 何 时 候 当 我 
们 遇 到 一 对 新 的 年 龄 数据 时 ， 如 果 想 要 推测 二 者 是 否 相 匹配 ， 我 们 只 须 将 其 想象 成 上 图 中 
的 一 个 坐标 点 ， 并 判断 其 更 接近 于 哪个 均值 点 即 可 。 
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图 9-4: 利用 均值 的 线性 分 类 器 


有 多 种 方法 可 以 判定 一 个 坐标 点 距离 均值 点 的 远近 程度 。 前 面 几 章 介绍 了 欧 几 里 德 距离 的 
相关 知识 ， 一 种 方法 就 是 ， 先 计算 坐标 点 到 每 个 分 类 的 均值 点 的 距离 ， 然 后 从 中 选择 距离 
较 短 者 。 尽 管 可 以 将 该 方法 用 于 此 处 的 分 类 器 ， 但 是 为 了 方便 后 面 的 扩展 ， 我 们 将 采用 另 
一 种 不 同 的 方法 : 使 用 向 量 和 点 积 。 


向 量具 有 大 小 和 方向 ， 我 们 时 常 将 其 表示 成 平面 上 的 一 个 第 头 ， 或 者 记 作 一 个 数字 集合 。 
下 页 图 9-5 给 出 了 一 个 向 量 的 例子 。 图 中 还 示范 了 如 何 用 一 个 点 减 去 另 一 个 点 , 以 得 到 连接 
两 者 的 疝 量 。 


所 谓 点 积 是 指 ， 针 对 两 个 向 量 ， 将 第 一 个 向 量 中 的 每 个 值 与 第 二 个 向 量 中 的 对 应 值 相 乘 ， 
然后 再 将 所 得 的 每 个 乘积 相 加 ， 最 后 得 到 一 个 总 的 结果 。 请 在 advancedclassify.py 中 新 建 一 
个 名 为 aotproduct 的 函数 ; 


def dotproduct (vl,v2): 
return sum([(vl({i]*v2[{i] for i in range(len(vl1)))) 


点 积 也 可 以 利用 两 个 向 量 的 长 度 乘 积 ， 再 乘 以 两 者 夹 角 的 余弦 求 得 。 最 重要 的 是 ， 如 果 夹 
角 的 度数 大 于 90 度 ， 则 夹 角 余弦 值 为 负 ， 这 意味 着 此 时 的 点 积 结果 也 为 负 值 。 为 了 明白 我 
们 是 如 何 利用 点 积 的 这 一 计算 特征 的 ， 请 看 下 页 图 9-6。 
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9-5: 向 量 的 例子 





9-6: 利用 点 积 来 确定 距离 


在 图 中 ， 我 们 看 到 有 两 个 均值 点 ， 分 别 对 应 于 “ 相 匹配 ”(Mo) A “RAR” (M) 两 种 
情况 ， 以 及 一 个 位 置 介 于 Mo 与 Mi 中 间 的 C。 另 外 还 有 两 个 点 ，Xo 和 Xi， 它们 是 即将 要 被 
分 类 的 两 个 例子 。 除 此 以 外 ， 图 上 还 显示 了 连接 Mo 到 M 的 向 量 ， 以 及 连接 X 到 C HX, 
到 C 的 两 个 向 量 。 


在 图 中 ，X 更 接近 于 Mo， 因 此 它 应 该 被 划 归 为 “ 相 匹 配 *。 我 们 注意 到 ， 介 于 向 量 XC 
和 Mo 一 M 的 夹 角 为 45 度 ， 小 于 90 度 ， 因 此 XC 5 MM 的 点 积 结果 为 正 数 。 


而 由 于 向 量 XC 和 Mo 一 MI 的 指向 相反 ,因此 介 于 两 者 间 的 夹 角 大 于 90 BE, BN X, 一 C 和 
Mo 一 Mi 的 点 积 结果 为 负数 。 


夹 角 大 者 点 积 为 负 ， 夹 角 小 者 点 积 为 正 ， 因 此 只 须 通过 观察 点 积 结果 的 正 负 号 ， 就 可 以 判 
断 出 新 的 坐标 点 属于 哪个 分 类 。 
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因为 点 C 是 Mo 和 Mi 的 均值 点 ， 亦 即 (MotM1) /2， 因 此 寻找 分 类 的 公式 如 下 : 


class=sign((X - (Mo+M;)/2) . (Mo-Mi) ) 


相 乘 后 的 结果 为 : 


class=sign(X.Mo - X.M: + (Mo.Mo - M:.M;)/2) 


我 们 将 利用 上 述 公式 来 确定 分 类 。 请 将 一 个 名 为 dpclassify 的 新 函数 加 入 advancedclassify.py 
中 : 
def dpclassify(point,avgs): 
b= (dotproduct (avgs[1],avgs[1])-dotproduct (avgs[0],avgs[0]))/2 
y=dotproduct (point, avgs[0])-dotproduct (point, avgs[1])+b 
if y>O: return 0 
else: return 1 


现在 ， 我 们 可 以 在 自己 的 Python 会 话 中 利用 线性 分 类 器 ， 从 前 述 数据 中 尝试 得 出 一 些 结论 
T: 

>>> reload (advancedclassify) 

<module ‘advancedclassify' from 'advancedclassify.py'> 

>>> advancedclassify.dpclassify([30,30],avgs) 

1 

>>> advancedclassify.dpclassify([30,25] ,avgs) 

1 

>>> advancedclassify.dpclassify([25,40] ,avgs) 

0 

>>> advancedclassify.dpclassify(([(48,20] ,avgs) 

1 


请 记 住 这 是 一 个 线性 分 类 器 ， 所 以 它 只 找 出 了 一 条 分 界线 来 。 这 意味 着 ， 如 果 找 不 到 一 条 
划分 数据 的 直线 来 ， 或 者 如 果实 际 存在 多 条 直线 时 ， 就 如 同 前 面 那 个 年 龄 对 比 的 例子 中 所 
呈现 的 那样 ， 那 么 此 时 分 类 器 将 会 得 到 错误 的 答案 。 在 那个 例子 中 ，48 岁 与 20 岁 的 年 龄 对 
比 实 际 上 应 该 是 “不 相 匹 配 ”的 结果 ， 但 是 因为 我 们 只 找到 了 一 条 直线 ， 而 相应 的 坐标 点 
又 落 在 了 这 条 直线 的 右 侧 ， 所 以 函数 得 出 了 “ 相 匹配 ”的 结论 。 在 本 章 稍 后 的 “理解 核 方 
法 ”一 节 中 ， 将 会 学 习 如 何 对 这 一 分 类 器 进行 改进 ， 使 其 能 够 处 理 非 线性 分 类 。 


分 类 特征 


Categorical Features 


婚介 数据 集中 既 包 含有 数值 数据 ， 也 包含 有 分 类 数据 (categorical data) 。 一 些 像 决 策 树 这 样 
的 分 类 器 不 须要 对 数据 作 任 何 预 处 理 ， 就 可 以 同时 应 对 这 两 种 类 型 的 数据 ， 但 是 本 章 接 下 
来 要 介绍 的 分 类 器 只 能 处 理 数 值 型 数据 。 为 了 解决 这 一 问题 ， 我 们 需要 一 种 能 够 将 数据 转 
换 成 数值 类 型 的 方法 ， 以 使 得 分 类 器 能 够 处 理 这 些 数据 。 


分 类 特征 | 205 


ww ai bbt. com DOOO000 


是 / 否 问题 


lacifNic, On ipeiians 
和 ie NO WUESUON 


将 数据 转换 成 数值 类 型 的 一 个 最 简单 的 例子 就 是 “是 / 否 ”问题 了 ， 因 为 可 以 将 “是 ”转换 
为 1， 将 “ 否 ” 转 换 为 -1。 这 样 做 还 为 我 们 留 出 了 一 个 选择 : 可 以 将 缺失 的 或 模棱两可 的 数 
据 (比如 “我 不 清楚 ") 转换 为 0。 请 将 转换 函数 yesno 加 入 advancedclassify. py : 
def yesno (v): 
if v=='yes': return 1 


elif v=='no': return -1 
else: return 0 


兴趣 列表 


Lists of Interests 


有 多 种 不 同 的 方法 可 以 在 数据 集中 记录 下 人 们 的 兴趣 爱好 。 其 中 最 为 简单 的 方法 就 是 将 每 
一 种 可 能 的 兴趣 爱好 都 视 作 单独 的 数值 变量 , 如 果 人 们 具备 某 一 项 兴趣 就 令 其 为 0, 否则 就 
令 其 为 1。 假如 要 处 理 的 是 一 个 一 个 的 人 ,那么 这 样 做 是 最 为 合理 的 。 然 而 在 本 例 中 ， 我们 
所 处 理 的 是 一 对 一 对 的 人 ， 因 此 一 种 更 为 直观 的 方法 是 将 具备 共同 兴趣 爱好 的 数量 视 作 变 
量 。 


请 将 一 个 名 为 matchcount 的 新 函数 加 入 advancedclassify.py 中 ， 它 以 浮 点 数 的 形式 返回 列 
表 中 匹配 项 的 数量 : 
def matchcount (interestl,interest2): 

ll=interestl.split(':') 

12=interest2.split(':') 

x=0 

for v in ll: 

if v in 12: x+=1 
return x 


将 具备 共同 兴趣 爱好 的 数量 作为 变量 是 很 有 意义 的 ， 但 是 这 样 做 的 确 也 忽视 了 某 些 富有 价 
， 值 的 潜在 信息 。 某 些 不 同 兴趣 爱好 的 组 合 也 有 可 能 会 配对 成 功 ， 比 如 : 滑雪 与 滑板 、 饮 酒 

与 跳舞 。 一 个 分 类 器 假如 不 是 在 未 经 处 理 的 原始 数据 上 进行 训练 ， 它 是 无 法 “学 习 ” 到 这 
样 的 组 合 的 。 


如 果 为 每 一 项 兴趣 都 新 建 一 个 变量 ， 则 会 导致 为 数 众多 的 变量 出 现 ， 从 而 使 分 类 器 变 得 更 
加 复杂 ， 改 变 这 一 情况 的 一 种 办 法 是 将 兴趣 爱好 按 层 级 排列 。 比 如 说 ， 滑 雪 和 滑板 都 属于 
雪 地 运动 ， 而 雪 地 运动 又 属于 体育 运动 的 子 分 类 ， 如 果 两 个 人 都 对 当地 运动 感 兴趣 ， 但 具 
体感 兴趣 的 并 不 是 同一 个 项 目 ， 那 么 其 matchcount 值 也 许 会 加 上 0.8， 而 不 是 满分 1。 如 
果 为 寻找 匹配 而 遍历 的 层级 越 靠近 上 层 ， 那 么 相应 赢 取 的 分 值 也 就 越 小 。 尽 管 婚 介 数 据 集 
并 没有 这 样 一 个 层级 关系 ， 但 是 当 有 类 似 问 题 出 现 的 时 候 ， 不 妨 也 可 以 考虑 一 下 采用 这 样 
的 办 法 。 
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利用 Yahoo! Maps 来 确定 距离 
Determuung Distances Using Yahoo! Maps 


数据 集中 最 难处 理 的 莫 过 于 家 庭 住 址 了 。 两 个 人 住 得 越 近 是 否 就 越 有 可 能 匹配 成 功 ， 这 一 
点 很 值得 考量 ， 但 是 数据 文件 中 的 住址 信息 是 以 地 址 和 邮编 的 混合 形式 给 出 的 。 解 决 这 一 
问题 的 一 个 非常 简单 的 办 法 ， 是 将 “居住 地 邮编 是 否 相同 ” 视 作 一 个 变量 ， 但 是 这 样 做 有 
非常 大 的 局 限 性 一 一 居住 在 邻近 地 区 的 人 ， 其 邮编 很 有 可 能 是 不 同 的 。 理 想 情况 下 ， 我 们 
可 以 根据 距离 值 来 建立 一 个 新 的 变量 。 


当然 , 在 没有 额外 信息 补充 的 情况 下 ,我 们 是 无 法 计算 两 地 间 的 距离 的 。 所 幸 的 是 ，Yahoo! 
Maps 提供 了 一 个 叫做 Geocoding 的 API 服务 ， 它 可 以 接受 一 个 美国 范围 内 的 地 址 ， 然 后 返 
回 相应 的 经 度 和 纬度 。 针 对 两 个 不 同 的 地 址 调用 该 项 服务 ， 就 能 计算 出 两 地 间 的 大 概 距离 
Ta 


假如 有 任何 原因 使 我 们 无 法 使 用 Yahoo! API， 就 请 将 一 个 名 为 milesdistance 的 空 函数 加 
入 到 advancedclassify.py 中 : 


def milesdistance(al,a2): 
return 0 


获取 Yahool 的 应 用 密 钥 


为 了 使 用 Yahoo! API， 首 先 须要 获得 一 个 应 用 密 钥 ， 我 们 将 该 密 钥 用 于 发 起 的 查询 请 求 中 ， 
以 此 来 标识 我 们 的 应 用 程序 。 通 过 访问 http://api.search.yahoo.com/webservices/register_ 
application 并 回答 一 系列 问题 ,就 可 以 拿 到 一 个 密 钥 。 如 果 你 还 没有 Yahoo! 账 号 ， 那 就 必须 
先 注 册 一 个 。 待 注册 完毕 之 后 就 可 以 立即 得 到 一 个 密 钥 ， 而 不 必 等 待 E-mail 的 回应 。 


使 用 Geocoding API 


Geocoding API 要 求 我 们 以 指定 的 URL 格式 来 发 起 请 求 。 可 以 采用 形 如 http//api.local. yahoo. 
com/MapsService/V 1/geocode ?appid=appid&location=location 这 样 的 格式 来 构造 URL, 


其 中 的 location 是 一 段 随意 的 文本 串 ， 它 可 以 是 一 个 地 址 、 一 个 邮编 ， 甚 或 是 一 个 城市 名 加 
一 个 州 名 。 请 求 所 返回 的 结果 是 一 个 如 下 所 示 的 XML 文件 ， 


<ResultSet> 

<Result precision="address"> 
<Latitude>37.417312</Latitude> 
<Longitude>-122.026419</Longitude> 
<Address>755 FIRST AVE</Address> 
<City>SUNNYVALE</City> 
<State>CA</State> 
<Zip>94089-1019</Zip> 
<Country>US</Country> 

</Result> 

</ResultSet> 


此 处 我 们 所 关注 的 字段 是 longitude 和 latitude。 为 了 解析 这 个 文件 ， 我 们 将 使 用 前 面 章节 中 
曾经 用 到 过 的 minidom API, WH get location 添加 到 advancedclassify.py P: 
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yahookey="Your Key Here" 
from xml.dom.minidom import parseString 
from urllib import urlopen, quote plus 


loc_cache={ } 
def getlocation (address): 
if address in loc_cache: return loc_cache[address] 
data=urlopen('http://api.local.yahoo.com/MapsService/V1/'+\ 
‘geocode?appid=%ts&location=%s' % 
(yahookey, quote_plus (address) )) .read() 
doc=parseString (data) 
lat=doc.getElementsByTagName ('Latitude') [0).firstChild.nodeValue 
long=doc.getElementsByTagName (‘Longitude’) [0].firstChild.nodeValue 
loc_cache[address]=(float (lat), float (long) ) 
return loc cache[address] 


上 述 函 数 利用 我 们 的 应 用 密 钥 和 位 置信 息 构造 了 一 个 URL， 然 后 提取 并 返回 了 相应 的 经 纬 
度 结 果 。 尽 管 这 一 结果 是 计算 距离 所 需 的 唯一 信息 ， 但 还 是 可 以 利用 Yahoo! Geocoding API 
来 做 许多 其 他 事情 的 ， 比 如 : 可 以 确定 给 定 地 址 的 邮编 ， 或 是 找 出 某 个 邮编 的 所 处 位 置 。 


计算 距离 


如 果 要 非常 精确 地 将 两 个 坐标 点 的 经 纬度 转换 成 以 英里 计量 的 距离 值 ， 这 其 实 是 一 项 极 具 
技巧 性 的 工作 。 不 过 ， 本 章 例 子 中 涉及 的 距离 值 非常 小 ， 而 计算 距离 的 目的 只 是 为 了 做 比 
较 ， 因 此 完全 可 以 用 近似 值 来 替代 。 这 个 近似 值 类 似 于 在 前 几 章 中 见 到 的 欧 几 里 德 距离 ， 
不 同 之 处 在 于 将 纬度 之 间 的 差 值 乘 以 69.1， 将 经 度 之 间 的 差 值 乘 以 53。 


请 将 milesdistance 函数 添加 到 advancedclassify.py 中 : 


def milesdistance(al,a2): 
latl, longl=getlocation (al) 
lat2, long2=getlocation (a2) 
latdif=69.1* (lat2-latl) 
longdif=53.0* (long2-longl) 
return (latdif**2+longdif**2)**.5 


该 函数 针对 两 个 不 同 的 地 址 分 别 调用 了 此 前 定义 的 getlocation 函数 ， 随 后 函数 计算 了 这 
两 个 地 址 间 的 距离 。 如 果 愿 意 的 话 , 也 可 以 在 自己 的 Python 会 话 中 尝试 执行 一 下 上 述 函 数 ; 
>>> reload (advancedclassify) 
<module ‘advancedclassify' from ‘advancedclassify.py'> 
>>> advancedclassify.getiocation('l alewife center, cambridge, ma') 
(42.398662999999999, -71.140512999899999) 


>>> advancedclassify.milesdistance('cambridge, ma','new york,ny') 
191.77952424273104 


利用 近似 法 求 得 的 距离 值 一 般 会 有 小 于 10% 的 误差 ， 这 对 于 本 章 的 应 用 而 言 应 该 是 可 以 接 
受 的 。 
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构造 新 的 数据 信 


Creating tn 
现在 已 经 做 好 了 所 有 的 准备 工作 ， 这 些 都 是 构造 用 于 训练 分 类 器 所 需 的 数据 集 所 必需 的 。 我 
们 需要 一 个 函数 将 所 有 这 些 部 件 组 装 起 来 。 该 函数 将 利用 loadmatch 函数 从 数据 文件 中 加 载 
数据 集 ， 并 对 各 列 数据 进行 适当 的 变换 处 理 。 请 将 loadnumerical 加 入 advancedclassify.py 


中 : 


def loadnumerical () : 
oldrows=loadmatch (‘'matchmaker.csv') 
newrows=[] 
for row in oldrows: 
d=row.data 
data=[float(d[(0]),yesno(da[(1]),yesno(d[2]), 
float (d[(5)),yesno(d[(6)),yesno(d[7)), 
matchcount (d[3]),d[8]), 
milesdistance(d[4],d[9]), 
row.match] 
newrows.append (matchrow (data) ) 
return newrows 


上 述 函 数 针对 原始 数据 集 的 每 一 行 生成 一 个 新 的 数据 行 。 它 调用 我 们 先前 定义 好 的 函数 ， 
将 所 有 数据 转换 成 新 的 值 ， 其 中 包括 距离 值 的 计算 ， 以 及 相同 兴趣 爱好 的 统计 。 


请 在 你 的 Python 会 话 中 调用 上 述 函 数 ， 以 构造 新 的 数据 集 : 


>>> reload (advancedclassify) 

>>> numericalset=advancedclassify.loadnumerical () 
>>> numericalset[0] .data 

(39.0, 1, -1, 43.0, -1, 1, 0, 0.90110601059793416) 


同样 ， 此 处 可 以 很 容易 地 通过 指定 自己 感 兴趣 的 列 来 构造 子 数据 集 。 这 对 于 数据 的 可 视 化 
呈现 ， 以 及 理解 分 类 器 针对 不 同 变量 的 执行 过 程 是 很 有 帮助 的 。 


对 数据 进行 缩放 处 理 
Scaling the Data 


当 我 们 只 是 根据 人 们 的 年 龄 进行 对 比 时 ， 保 留 数据 的 原 有 状态 并 使 用 均值 和 距离 值 ， 是 没 
有 任何 问题 的 ， 因 为 将 代表 同一 事物 的 变量 故 在 一 起 对 比 是 很 合乎 情理 的 。 然 而 ， 现 在 已 
经 引入 了 一 些 新 的 变量 ， 这 些 变量 与 年 龄 事实 上 没有 什么 可 比 性 ， 相 对 而 言 它们 的 值 要 小 
很 多 。 双 方 对 于 是 否 要 小 孩 所 持 的 不 同 观点 一 一 介 于 1 与 -1 之 间 , 最 大 差 值 为 2 一 一 在 现实 
中 也 许 要 比 一 个 6 岁 的 年 龄 差距 更 有 意义 得 多 ， 但 是 如 果 使 用 目前 的 数据 ， 年 龄 之 差 将 会 
被 视 为 3 倍 于 观念 之 差 。 


为 了 解决 这 一 问题 ， 一 种 推荐 的 做 法 是 ， 将 所 有 数据 都 缩放 为 同一 尺度 ， 从 而 使 每 个 变量 
上 的 差 值 都 具有 可 比 性 。 通 过 确定 每 个 变量 的 最 大 最 小 值 ， 并 对 数据 进行 相应 的 缩放 ， 以 
使 最 小 值 为 0， 最 大 值 为 !， 其 他 值 介 于 0 和 1 之 间 ， 就 可 以 在 相同 尺度 上 对 数据 进行 比较 
T 
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请 将 scaledata 添加 到 advancedclassifierpy 中 : 


def scaledata (rows): 
low=[999999999.0] *len(rows[0]) .datal) 
high=[-999999999.0)} *len (rows[0]} .data) 
# 寻找 最 大 值 和 最 小 值 
for row in rows: 
d=row. data 
for i in range(len(d)): 
if d[i]J<low[{i]: low[i)=d[i] 
if d[iJ>high[iJ]: high[i]=d[i] 


# 对 数据 进行 缩放 处 理 的 函数 
def scaleinput (d): 
return [(d.data[i]-low[i])/(high[i]-low[i]) 
for i in range (len (low))] 


# Scale all the data 
# 对 所 有 数据 进行 缩放 处 理 


newrows=[matchrow (scaleinput (row.data)+[row.match] } 
for row in rows] 


# 返回 疡 的 数据 和 缩放 处 理 函 数 


return newrows,scaleinput 


上 述 函 数 定义 了 一 个 内 部 函数 ，scaleinput， 其 作用 是 找 出 最 小 值 ， 并 从 所 有 数值 中 减 去 
该 最 小 值 ， 从 而 将 值 域 范围 调整 至 以 0 为 起 点 。 函 数 随 后 又 将 调整 后 的 结果 除 以 最 大 最 小 
值 的 差 ， 从 而 将 所 有 数据 都 转换 成 了 介 于 0 和 1 之 间 的 值 。 该 函数 针对 数据 集中 的 每 一 行 
数据 分 别 调用 了 scaleinput 函数 ， 并 将 新 生成 的 数据 集 与 scaleinput 函数 一 并 返回 ， 从 
而 使 我 们 对 于 查询 得 到 的 结果 也 可 以 作出 同样 的 调整 。 
现在 ， 可 以 针对 更 大 规模 的 变量 组 合 ， 来 尝试 线性 分 类 器 了 : 

>>> reload (advancedclassify) 

<module ‘advancedclassify' from 'advancedclassify.py'> 

>>> scaledset,scalef=advancedclassify.scaledata (numericalset) 

>>> avgs=advancedclassify.lineartrain (scaledset) 

>>> numericalset[0].data 


(39.0; 1, -l, 43.0, -1, 1, 0, 0.90110601059793416] 
>>> numericalset[0] .match 


>>> advancedclassify.dpclassify (scalef (numericalset [0] .data) ,avgs) 
>>> numericalset[11] .match 


>>> advancedclassify.dpclassify (scalef (numericalset [11] .data) ,avgs) 


请 注意 ， 须 要 先 对 样 例 数据 进行 缩放 处 理 ， 将 其 调整 至 新 的 值 域 空间 。 尽 管 此 处 所 用 的 线 
性 分 类 器 对 于 某 些 例子 是 有 效 的 ， 但 是 只 试图 寻找 一 条 分 界线 的 局 限 性 现在 已 经 变 得 越 来 
越 明 显 了 。 为 了 有 所 改进 ， 我 们 需要 一 种 能 够 超越 线性 分 类 的 新 的 分 类 方法 。 
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图 9-7: 有 一 个 分 类 对 其 他 分 类 呈 环 绕 状 
每 个 分 类 的 均值 点 在 哪儿 呢 ? 它们 恰好 都 位 于 相同 的 位 置 ! 尽管 大 家 都 很 清楚 ， 任 何 位 于 
圆圈 内 的 都 是 X， 位 于 圆圈 外 的 都 是 O， 但 是 线性 分 类 器 却 无 法 识别 这 两 个 分 类 。 


不 过 请 试想 一 下 ， 假 如 先 对 每 一 个 x 值 和 y 值 求 平方 ， 情 况 又 会 如 何 呢 。 原 来 位 于 (-1,2) 处 
的 坐标 点 现在 将 变 成 (1,4)， 原 来 位 于 (0.5,1) 处 的 坐标 点 现在 将 变 成 (0.25,1)， 依 此 类 推 。 新 的 
坐标 点 分 布 情况 如 下 页 图 9-8 所 示 。 


所 有 的 X 现在 都 已 经 偏 移 到 了 图 上 的 角落 处 ， 所 有 的 O 都 则 位 于 角落 以 外 的 区 域 。 现 在 ， 
要 用 一 条 直线 来 划分 X 和 OO 已 经 变 得 非常 容易 了 ， 并 且 任 何 时 候 只 要 有 待 分 类 的 新 数据 ， 
我 们 只 须 对 x 值 和 y 值 求 平方 ， 并 观察 其 落 于 直线 的 哪 一 侧 即 可 。 

上 述 例子 告诉 我 们 ， 通 过 预先 对 坐标 点 进行 变换 ， 构 造 一 个 只 用 一 条 直线 就 可 以 进行 划分 
的 新 数据 集 是 完全 有 可 能 的 。 然 而 ， 在 这 里 之 所 以 选择 这 样 一 个 例子 ， 是 因为 它 非常 容易 
变换 ， 在 面 对 真 实 问题 时 ， 变 换 的 方法 可 能 要 复杂 许多 ， 其 中 就 包括 数据 的 多 维 变换 。 例 


理解 核 方 法 | 211 


ww ai bbt. com O000000 





图 9-8: 将 坐标 点 移 至 新 的 坐标 空间 


如 , 或 许 我 们 会 将 一 个 包含 Aly 坐标 的 数据 集 ， 变 换 成 一 个 由 a、b、e 三 个 坐标 构成 的 新 
数据 集 ， 其 条 件 分 别 是 a=x*、b=x*y、c=y*。 一 旦 将 数据 置 于 多 维 空间 中 ， 寻 找 两 个 分 类 间 
的 分 界线 就 容易 多 了 。 


核 技法 


尽管 可 以 编写 代码 将 数据 依照 如 上 方法 变换 到 新 的 坐标 空间 中 ， 但 实际 上 我 们 通常 不 会 这 
样 去 做 ， 因 为 要 找到 一 条 与 实际 数据 集 相 匹配 的 分 界线 ， 必 须要 将 数据 投影 到 成 百 上 千 个 
维度 上 ， 要 实现 这 样 的 功能 是 非常 不 切实 际 的 。 然 而 ， 对 于 任何 用 到 了 点 积 运算 的 算法 一 
一 包括 线性 分 类 器 一 一 我 们 可 以 采用 一 种 叫做 核 技法 的 技术 。 


核 技法 的 思路 是 用 一 个 新 的 函数 来 取代 原来 的 点 积 函 数 ， 当 借助 某 个 映射 函数 将 数据 第 一 
次 变换 到 更 高 维度 的 坐标 空间 时 ， 新 函数 将 会 返回 高 维度 华 标 空间 内 的 点 积 结果 。 此 处 ， 
就 变换 方法 的 数量 而 言 并 没有 任何 的 限制 ， 但 是 在 现实 中 我 们 其 实 只 会 采用 少数 儿 种 变换 
方法 。 其 中 备 受 人 们 推崇 的 一 种 方法 (也 是 将 要 在 此 处 采用 的 方法 ) 被 称 为 径 向 基 函 数 
(radial-basis function) 。 
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径 向 基 函 数 与 点 积 类 似 ， 它 接受 两 个 向 量 作为 输入 参数 ， 并 返回 一 个 标量 值 。 与 点 积 不 同 
的 是 ， 径 向 基 函 数 是 非 线性 的 ， 因 而 它 能 够 将 数据 映射 到 更 为 复杂 的 空间 中 。 请 将 rbf 加 
入 advancedclassify.py 中 : 
def rbf (vl,v2,gamma=20): 
dv=[vl[i]-v2{i] for i in range(len(vl))] 


l=veclength (dv) 
return math.e** (-gamma*1) 


该 函数 还 接受 一 个 gamma 参数 ， 我 们 可 以 对 该 参数 进行 调整 ， 以 得 到 一 个 针对 给 定数 据 集 
的 最 佳 线性 分 离 。 


现在 ,我 们 需要 一 个 新 的 函数 ， 用 以 计算 坐标 点 在 变换 后 的 空间 中 与 均值 点 间 的 距离 。 遗 
憾 的 是 ， 目 前 的 均值 点 是 在 原始 空间 中 计算 得 到 的 ， 因 此 无 法 在 此 处 直接 使 用 它们 一 一 事 
实 上 ， 根 本 无 法 计算 均值 点 ， 因 为 实际 上 不 会 在 新 的 坐标 空间 中 计算 坐标 点 的 位 置 。 所 幸 
的 是 ， 先 对 一 组 向 量 求 均值 ， 然 后 再 计算 均值 与 向 量 A 的 点 积 结果 ， 与 先 对 向 量 A 与 该 组 
向 量 中 的 每 一 个 向 量 求 点 积 ， 然 后 再 计算 均值 ， 在 效果 上 是 完全 等 价 的 。 


因此 ， 我 们 不 再 对 尝试 分 类 的 两 个 坐标 点 求 点 积 ， 也 不 再 计算 某 个 分 类 的 均值 点 了 ， 取 而 
代 之 的 是 ， 计 算出 某 个 坐标 点 与 分 类 中 其 余 每 个 坐标 点 之 间 的 点 积 或 径 向 基 范 数 的 结果 ， 
然后 再 对 它们 求 均 值 。 请 将 nonlinearclassify 加 入 advancedclassify.py 中 : 


def niclassify (point, rows, offset, gamma=10): 
sum0=0 .0 
sum1=0.0 
count0=0 
count1=0 





for row in rows: 
if row.match==0: 
sum0+=rbf (point, row.data, gamma) 
count0+=1 
else: 
suml+=rbf (point, row.data, gamma) 
countl+=1 
y=(1.0/count0) *sum0-(1.0/count1) *suml+offset 


if y<0: return 0 
else: return 1 


def getoffset (rows, gamma=10): 
10=[] 
LI=[] 
for row in rows: 
if row.match==0: 10.append(row.data) 
else: ll.append(row.data) 
sum0=sum(sum([(rbf(vl,v2,gamma) for vl in 10]) for v2 in 10) 
suml=sum(sum([(rbf(vl,v2,gamma) for vl in 11)) for v2 in 11) 


return (1.0/(len(11)**2))*suml-(1.0/ (len(10) **2) ) *sum0 
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此 处 的 偏 移 量 (offset) 参数 ， 在 转换 后 的 空间 中 也 会 发 生 改 变 ， 而 其 计算 过 程 可 能 会 有 些 
费时 。 因 此 ， 我 们 应 该 预先 为 某 个 数据 集 计 算 一 次 偏 移 量 ， 然 后 在 每 次 调用 nlclassify 
时 将 其 传 入。 


下 面 让 我 们 来 尝试 一 下 新 的 分 类 器 ， 只 考虑 年 龄 因素 ， 看 看 它 是 否 解决 了 之 前 提 到 的 问题 : 


>>> 
1 
>>> 
1 
>>> 
0 
>>> 
0 


advancedclassify.nlclassify( [30,30] ,agesonly, offset) 
advancedclassify.niclassify([30,25] ,agesonly,offset) 
advancedclassify.niclassify([25,40] ,agesonly,offset) 


advancedclassify.niclassify([48,20] ,agesonly, offset) 


非常 棒 ! 对 数据 的 变换 处 理 ， 使 我 们 的 分 类 器 能 够 识别 出 一 个 年 龄 匹配 的 环 状 分 布 ， 位 于 
该 区 域内 的 年 龄 彼此 都 非常 的 接近 ， 而 该 区 域外 的 任何 一 侧 ， 这 样 的 匹配 都 是 极 不 可 能 的 。 
现在 ,我 们 的 分 类 器 已 经 可 以 识别 出 48 岁 与 20 岁 是 不 会 成 功 配对 的 。 接 下 来 ， 请 将 除 年 
龄 以 外 的 其 他 数据 也 包含 进来 ， 再 试 一 试 : 


>>> 
>>> 
0 
>>> 
0 
>>> 
1 
>>> 
1 
>>> 
0 
>>> 
0 
>>> 
>>> 
0 
>>> 
>>> 
l 


ssoffset=advancedclassify.getoffset (scaledset) 
numericalset[0] .match 


advancedclassify.nlclassify (scalef (mmericalset [0] .data) , scaledset, ssoffset) 
numericalset[1] .match 
advancedclassi fy .nlclassi fy (scalef (mmericalset [1] .data) , scaledset, ssoffset) 
numericalset[2] .match 
advancedclassify.niclassify (scalef (mmericalset [2] .data) ,scaledset , ssoffset) 


newrow=[28.0,-1,-1,26.0,-1,1,2,0.8] # 男士 不 想 要 小 孩 ， 而 女士 想 要 
advancedclassify.niclassify (scalef (newrow) ,scaledset,ssoffset) 


newrow=[28.0,-1,1,26.0,-1,1,2,0.8] # 双方 都 想 要 小 孩 
advancedclassify-.nliclassify (scalef (newrow) ,scaledset,ssoffset) 


此 处 分 类 器 的 性 能 改善 了 不 少 。 从 中 我 们 可 以 看 到 ， 假 如 男士 不 想 要 小 孩 而 女士 想 要 的 话 ， 
那么 一 段 好 姻缘 就 会 被 断送 ， 即 便 双方 的 年 龄 都 很 接近 ， 即 便 双方 还 拥有 不 少 的 共同 爱好 
也 无 济 于 事 。 请 改 用 其 他 的 变量 试 一 试 ， 看 看 对 结果 的 影响 如 何 。 
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支持 问 量 机 


Sunport-Vector Machines 


让 我 们 再 次 回 到 前 面 的 话题 ， 当 寻找 一 条 划分 两 个 分 类 的 直线 时 ， 我 们 所 面 对 的 困境 。 图 
9-9 给 出 了 这 样 的 一 个 例子 。 每 个 分 类 的 均值 点 及 隐 含 的 分 界线 如 图 所 示 。 





图 9-9: 线性 均值 分 类 器 对 坐标 点 的 错误 分 类 


我 们 注意 到 ， 有 两 个 坐标 点 因为 与 其 他 大 多 数 数据 相 比 ， 都 更 加 接近 于 利用 均值 点 计算 得 
到 的 分 界线 ， 所 以 它们 被 划 归 到 了 错误 的 分 类 。 此 处 的 问题 在 于 ， 因 为 大 多 数 数据 都 是 远 
离 分 界线 的 ， 所 以 判断 坐标 点 的 分 类 与 是 否 位 于 直线 的 某 一 侧 并 没有 太 大 的 关系 。 


支持 向 量 机 是 广为人知 的 一 组 方法 的 统称 ， 借 助 于 它 我 们 可 以 构造 出 解决 上 述 问 题 的 分 类 
器 。 其 思路 就 是 ， 尝 试 寻找 一 条 尽 可 能 远离 所 有 分 类 的 线 ， 这 条 线 被 称 为 最 大 间隔 超 平面 
(maximum-margin hyperplane) ， 如 下 页 图 9-10 所 示 。 


此 处 选择 分 界线 的 依据 是 : 寻找 两 条 分 别 经 过 各 分 类 相应 坐标 点 的 平行 线 ， 并 使 其 与 分 界 
线 的 距离 尽 可 能 的 远 。 同 样 ， 对 于 新 的 数据 点 ， 可 以 通过 观察 其 位 于 分 界线 的 哪 一 侧 来 判 
断 其 所 属 的 分 类 。 请 注意 ， 只 有 位 于 间隔 区 边缘 的 坐标 点 才 是 确定 分 界线 位 置 所 必需 的 ， 
我 们 可 以 去 掉 其 余 所 有 的 数据 ， 而 分 界线 依然 还 会 处 于 相同 的 位 置 。 我 们 将 位 于 这 条 分 界 
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图 9-10: 寻找 最 佳 分 界线 


线 附 近 的 坐标 点 称 做 支持 向 量 。 寻 找 支 持 向 量 ， 并 利用 支持 向 量 来 寻找 分 界线 的 算法 便 是 
支持 向 量 机 。 


通过 前 面 的 论述 我 们 已 经 知道 了 ， 只 要 利用 点 积 结果 来 做 比较 ， 借 助 于 核 技法 的 使 用 ， 就 
可 以 将 一 个 线性 分 类 器 转换 成 非 线 性 分 类 器 。 支 持 向 量 机 所 使 用 的 也 是 点 积 的 结果 ， 因 此 
同样 也 可 以 利用 核 技法 将 其 用 于 非 线性 分 类 。 


支持 向 量 机 的 应 用 


因为 支持 向 量 机 在 高 维 数据 集 上 有 不 错 的 表现 ， 因 此 它们 时 常 被 用 于 解决 数据 量 很 大 
(data-intensive) 的 科学 问题 ， 以 及 其 他 须要 处 理 极 复杂 数据 集 的 问题 。 其 中 的 一 些 例子 
如 下 所 示 。 


对 面部 表情 进行 分 类 。 


使 用 军事 数据 侦 测 入 侵 者 。 

根据 各 白质 序列 预测 蛋白 质 结构 。 
笔迹 识别 。 

确定 地 震 期 间 的 潜在 危害 。 
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使 用 LIBSVM 

Using LIBSVM 

相信 前 一 节 的 讨论 对 于 大 家 理解 支持 向 量 机 的 工作 方式 和 工作 原理 会 有 很 大 的 帮助 ， 但 是 
训练 支持 向 量 机 的 算法 所 涉及 的 数学 概念 ， 其 计算 量 是 非常 庞大 的 ， 而 且 也 超出 了 本 章 讨 
论 的 范畴 。 因 此 ， 在 这 一 节 中 我 们 将 引入 一 个 叫做 LIBSVM 的 开源 库 ， 它 能 够 对 一 个 SVM 


模型 进行 训练 、 给 出 预测 ， 并 利用 数据 集 对 预测 结果 进行 测试 。LIBSVM 甚至 还 提供 了 针 
对 径 向 基 范 数 和 许多 其 他 核 方 法 的 支持 。 


获取 LIBSVM 


Getting EIBSVIM 

我 们 可 以 从 http:/Awww.csie.ntu.edu.tw/~cjlinflibsom 处 下 载 到 LIBSVM, 

LIBSVM 是 用 C++ 编写 而 成 的 ， 它 还 有 一 个 Java 的 版 本 。 该 下 载 包 中 包含 了 一 个 Python 的 
封装 程序 ， 叫 做 svm.py。 为 了 使 用 svm.py， 我 们 须要 根据 自己 所 使 用 的 平台 选择 合适 的 
LIBSVM 编译 版 本 。 如 果 你 使 用 的 是 Windows 平台 ， 则 须要 将 一 个 名 为 svmc.dil 的 DLL 文 


件 包含 进来 。(Python 2.5 要 求 我 们 将 该 文件 重 命名 为 svmc.pyd， 因 为 它 无 法 导入 带 DLL H 
展 名 的 库 )。LIBSVM 的 文档 里 还 详细 说 明了 如 何 针对 其 他 平台 来 生成 函数 库 的 编译 版 本 。 


一 个 Python 会 话 的 例子 

A Sample Session 

一 旦 得 到 了 LIBSVM 的 编译 版 本 ,就 可 以 将 其 与 svm.py 一 起 置 于 Python 的 安装 路 径 或 工作 

目录 之 下 。 我 们 可 以 在 自己 的 Python 会 话 中 将 该 库 导入 进来 , 并 尝试 解决 一 个 简单 的 问题 : 
>>> from svm import * 

首先 让 我 们 来 构造 一 个 简单 的 数据 集 。LIBSVM 从 一 个 包含 两 个 列表 的 元 组 中 读 取 数据 。 


其 中 ， 第 一 个 列表 含有 分 类 数据 ， 第 二 个 列表 含有 输入 数据 。 请 尝试 用 两 个 分 类 来 构造 一 
个 简单 的 数据 集 : 


>>> prob = svm_problem([1,-1],[[1,0,1],[-1,0,-1]]) 
此 外 ， 我 们 还 须要 通过 构造 svm_parameter 来 指定 所 选用 的 核 方法 : 
>>> param = svm_ parameter (kernel type = LINEAR, C = 10) 
接 下 来 ， 就 可 以 对 模型 进行 训练 了 : 
>>> m = Svm model (prob, param) 


optimization finished, #iter = 1 
nu = 0.025000 

obj = -0.250000, rho = 0.000000 
nSV = 2, nBSV = 0 

Total nSV = 2 
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最 后 ， 利 用 该 模型 来 预测 新 的 分 类 : 


>>> m.predict([1, 1, 1]) 
1.8 


上 述 例子 为 我 们 展示 了 LIBSVM 的 所 有 相关 功能 ， 这 些 都 是 我 们 根据 训练 数据 构造 模型 ， 
并 借 此 给 出 预测 所 必需 的 。 此 外 ，LIBSVM 还 提供 了 另 一 项 很 方便 的 功能 ， 那 就 是 加 载 和 
保存 构造 好 的 受训 模型 : 


>>> m.save (test .model) 
>>> m=svm_model (test .model) 


将 SVM 用 于 婚介 数据 集 


ppiying SVI the tchmaker Dataset 


为 了 将 LIBSVM 用 于 婚介 数据 集 ,必须 先 将 数据 集 scaledset 转换 成 svm_model 所 要 求 的 
列表 元 组 。 转 换 的 过 程 非常 简单 ， 我 们 在 Python 会 话 中 用 一 行 代 码 就 可 以 完成 ; 


>>> answers ,inputs=[r.match for r in scaledset] ,[r.data for r in scaledset] 


同样 ， 为 了 避免 过 高 估计 某 些 变量 所 起 的 作用 ， 此 处 我 们 使 用 了 经 缩放 处 理 的 数据 。 同 时 ， 
这 对 于 算法 性 能 的 改善 也 起 到 了 一 定 的 作用 。 请 使 用 前 述 的 新 函数 来 构造 数据 集 ， 并 选择 
径 向 基 范 数 作为 核 方 法 ， 构 造 模 型 : 

>>> param = Svm parameter (kernel type = RBF) 


>>> prob = svm problem(answers,inputs) 
>>> m=svm_model (prob, param) 


optimization finished, #iter = 319 
nu = 0.777538 

obj = -289.477708, rho = -0.853058 
nSV = 396, nBSV = 380 

Total nSV = 396 


BLE, RECATA “ASREERMALAEBRALR” HOHWMT. RNA 
利用 缩放 处 理 函 数 ， 将 待 预测 的 数据 按 比 例 进 行 缩放 ， 从 而 使 相应 的 变量 与 我 们 构造 模型 
时 所 用 的 变量 处 于 相同 的 尺度 范围 内 : 


>>> newrow=[28.0,-1,-1,26.0,-1,1,2,0.8] # 男士 不 起 要 小 孩 ， 而 女士 想 要 
>>> m.predict (scalef (newrow) ) 

0.0 

>>> newrow=[28.0,-1,1,26.0,-1,1,2,0.8) # 双方 都 想 和 要 小 孩 

>>> m.predict (scalef (newrow) ) 

1.0 


尽管 上 述 做 法 似乎 可 以 给 出 合理 的 预测 结果 , 但 是 假如 我 们 能 够 确 知 预 测 结果 的 好 坏 程 度 ， 
那么 对 于 为 基 图 数 选 择 最 佳 的 参数 取 值 而 言 ， 将 会 是 非常 有 帮助 的 。LIBSVM 也 提供 了 对 
模型 进行 交叉 验证 (cross-validating) 的 功能 。 我 们 在 第 8 章 中 已 经 讨论 过 交叉 验证 的 工作 
原理 一 一 数据 集 被 自动 划分 为 训练 集 和 测试 集 。 训 练 集 的 作用 是 构造 模型 ， 而 测试 集 的 作 
用 则 是 对 模型 进行 测试 ， 以 评估 预测 结果 的 好 坏 程 度 。 
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可 以 利用 交叉 验证 函数 来 检验 模型 的 质量 。 该 函数 接受 一 个 参数 n， 并 将 数据 集 拆 分 为 n 
个 子 集 。 然 后 ， 函 数 每 次 将 一 个 子 集 作为 测试 集 ， 并 利用 所 有 其 他 子 集 对 模型 展开 训练 。 
函数 最 后 会 返回 一 个 结果 列表 ， 我 们 可 以 将 该 结果 列表 与 最 初 的 列表 进行 对 比 。 


>>> guesses = cross _validation(prob, param, 4) 
>>> guesses 
(6.0, 0.0, 0.0, 0.4, 1.0, Wy 


0.0, 0.0, 0.0, 0.0, 0.0, 0.0,... 
1.0, 1.0, 0.0, 0.0, 0.0, 0.0,... 


eof for i in range (len(guesses) ) ] ) 
116.0 
answers 与 guesses 之 间 的 差异 数 为 116。 由 于 初始 数据 集中 有 500 行 数据 , 因此 这 意味 着 算 
法 得 到 了 384 项 正确 的 匹配 。 如 果 你 愿意 的 话 ， 也 可 以 在 LIBSVM 文档 中 找 一 找 其 他 的 核 
方法 和 对 应 的 参数 值 ， 看 看 是 否 可 以 在 此 基础 上 通过 改变 参数 值 ， 令 结果 获得 更 进一步 的 
改善 。 


基于 Facebook 的 匹配 


NA Anant f "Ve 
MidalCi ‘at NG OF rac nahook 


Facebook 是 时 下 流行 的 一 个 社会 化 网 络 站 点 ， 它 最 初 面向 的 是 大 学 生 ， 但 现在 已 经 向 更 大 
范围 内 的 受众 开放 了 。 和 其 他 社会 化 网 络 站 点 一 样 ，Facebook 允许 用 户 定义 个 人 简历 ， 输 
入 关于 他 们 自身 的 个 人 详细 信息 ， 并 通过 网 站 与 他 们 的 好 友 进 行 联系 。Facebook 还 提供 了 
一 套 API， 人 允许 你 查询 用 户 的 个 人 信息 ， 查 明 两 人 是 否 好 友 。 借 助 Facebook 的 API， 我 们 
可 以 利用 真实 的 人 员 信 息 ， 构 造 出 一 个 与 前 述 婚介 数据 集 相 类 似 的 数据 集合 。 

截至 本 书 撰写 期 间 ，Facebook 仍然 非常 忠于 个 人 隐私 ， 因 此 我 们 只 能 查看 好 友 的 个 人 资料 。 
其 API 的 应 用 规则 ， 要 求 用 户 必须 先 登 录 ， 并 且 只 允许 查询 。 因 此 很 遗憾 ， 如 果 你 拥有 一 


个 Facebook 的 账户 , 并 且 已 经 与 至 少 20 个 人 建立 了 联系 , 那么 你 将 只 能 在 这 一 范围 内 调用 
Facebook 的 API, 


da 

TO a opgi KEY 
如 果 你 有 Facebook 的 账号 ， 那 就 可 以 在 它 的 开发 者 站 点 http//developers facebook.com 上 注 
册 一 个 开发 者 密 钥 。 


我 们 一 共 会 得 到 两 个 字 串 ， 一 个 是 API 密 钥 ， 另 一 个 是 “私密 (secret)” 密 钥 (或 称 私 钥 )。 
API 密 钥 的 作用 是 识别 你 的 身份 ,而 私 钥 的 作用 , 则 是 在 稍 后 将 要 看 到 的 散 列 函数 中 ,对 发 
起 的 调用 请 求 进行 加 密 处 理 。 首 先 ， 我 们 来 新 建 一 个 名 为 facebook.py 的 文件 ， 导 入 所 需 的 
模块 ， 并 定义 好 若干 常量 : 


import urllib,md5,webbrowser, time 
from xml.dom.minidom import parseString 


基于 Facebook 的 匹配 | 219 


ww ai bbt. com 0000000 


apikey="Your API Key” 
secret="Your Secret Key" 
FacebookSecureURL = “https://api.facebook.com/restserver.php" 


还 有 两 个 辅助 函数 须要 加 入 : getsinglevalue， 根 据 指定 的 具名 节点 (named node) 得 到 
其 子 节点 的 对 应 值 ，callid， 根 据 系统 当前 时 间 返 回 一 个 相应 的 数字 。 


def getsinglevalue (node, tag): 
nl=node.getElementsByTagName (tag) 
if len(nl)>0: 
tagNode=n1 [0] 
if tagNode.hasChildNodes (): 
return tagNode.firstChild.nodeValue 
return '' 


def callid(): 
return str({int (time.time()*10)) 


—# Facebook 的 调用 要 求 我 们 提供 序列 号 ， 该 序列 号 可 以 是 任意 数字 ， 只 要 它 大 于 我 们 上 


一 次 所 用 的 序列 号 即 可 。 利 用 系统 时 间 生 成 的 序列 号 ， 可 以 保证 我 们 得 到 的 数字 始终 比 前 
一 次 的 更 大 ， 同 时 ， 这 种 方法 也 非常 简便 。 


建立 会 话 


Creating a PoSiOF 


建立 一 个 指向 Facebook 的 会 话 ， 其 目的 实际 上 是 为 了 帮助 我 们 建立 一 个 可 供 他 人 使 用 的 应 
用 程序 ， 人 们 有 了 这 一 应 用 程序 之 后 ， 就 不 须要 知道 他 们 的 登录 信息 了 。 建 立会 话 的 过 程 
包含 如 下 几 个 步 又 。 


1. 调用 Facebook API， 请 求 一 个 令 牌 (token)， 

2. 向 用 户 发 送 一 个 指向 Facebook 登录 页 面 的 URL, URL 中 携带 了 令 ， 
3. 一 直 等 待 ， 直 到 用 户 成 功 登 录 为 止 ， 

4. 利用 令 牌 请 求 一 个 调用 Facebook API 的 会 话 。 


因为 有 几 个 变量 , 所 有 的 Facebook 调用 都 会 用 到 ,所 以 我 们 最 好 还 是 将 Facebook 的 功能 封 
装 到 一 个 类 里 。 请 在 facebook. py 中 新 建 一 个 名 为 fbsession 的 类 ， 并 添加 一 个 _init_ 
方法 ， 该 方法 实现 了 上 面 所 列 的 儿 个 步 又 : 
class fbsession: 
def _ init  _ (self): 

self.session_secret=None 

self.session_key=None 

self.createtoken () 

webbrowser.open(self.getlogin()) 

print "Press enter after logging in:", 

raw_input () 

self.getsession() 


_ init 用 到 了 几 个 方法 ， 为 了 使 其 能 够 正常 工作 ， 我 们 须要 将 这 几 个 方法 加 入 类 中 。 首 
Fe, 我 们 须要 发 送 请 求 到 Facebook API, sendrequest 方法 的 作用 便 是 建立 一 个 指向 Facebook 
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的 连接 , 并 提交 请 求 所 需 的 参数 。 对 返回 的 XML 文件 进行 解析 的 工作 , 是 由 minidom 解析 
器 完成 的 。 请 将 该 方法 加 入 类 中 : 
def sendrequest(self, args): 

args['api_key'] = apikey 

args['sig'] = self.makehash (args) 

post data = urllib.urlencode (args) 

url = FacebookURL + "?" + post data 

data=urllib.urlopen(url).read() 

return parseString (data) 


以 粗 体 显示 的 代码 行 生 成 了 相应 的 URL 请 求 字 串 。 此 处 我 们 调用 了 makehash 方法 ， 该 函 
数 将 所 有 参数 连接 成 一 个 字符 串 ， 然 后 用 私 钥 对 其 进行 散 列 化 处 理 。 当 得 到 一 个 会 话 之 后 ， 
我 们 会 发 现 私 钥 马 上 就 会 改变 ， 因 此 该 方法 还 会 检查 我 们 是 否 已 经 持 有 了 一 个 会 话 私 钥 。 
请 将 makehash 加 入 类 中 ; 
def makehash(self,args): 
hasher = md5.new(''.join([x + '=' + args[x] for x in sorted(args.keys())])) 
if self.session_secret: hasher.update(self.session_secret) 


else: hasher.update (secret) 
return hasher.hexdigest () 


现在 ， 我 们 可 以 开始 编写 实际 的 Facebook API 调用 了 。 首 先是 createtoken， 该 函数 的 作 
用 是 创建 并 保存 登录 页 面 中 将 会 用 到 的 令 牌 : 
def createtoken (SeIf) : 


res = self.sendrequest ({'method':"facebook.auth.createToken"}) 
self.token = getsinglevalue(res, 'token') 


然后 是 getlogin， 该 函数 的 作用 只 是 返回 用 户 登 录 页 面 的 URL: 


def getlogin(self): 
return "http://api.facebook.com/login.php?api_key="tapikey+\ 
"gauth token=" + self.token 


待 用 户 登 录 之 后 ， 我 们 应 该 调用 getsession 得 到 一 个 会 话 密 钥 和 一 个 会 话 私 钥 (session 
secret key), 后 者 是 对 日 后 发 起 的 调用 请 求 进行 散 列 处 理 时 所 必需 的 。 请 将 该 函数 加 入 类 中 
def getsession(self): 
doc=self.sendrequest ({'method'; 'facebook.auth.getSession', 
‘auth_token':self.token}) 


self.session_key=getsinglevalue (doc, ‘session key') 
self.session_secret=getsinglevalue (doc, 'secret') 


设置 一 个 Facebook 会 话 须要 做 大 量 的 工作 ， 不 过 一 旦 完成 这 项 工作 之 后 ， 将 来 的 调用 就 会 
变 得 非常 简单 。 本 章 我 们 只 涉及 人 员 信 息 的 获取 ， 但 是 如 果 你 阅读 相关 的 文档 就 会 发 现 ， 
像 下 载 照 片 和 事件 信息 这 样 的 方法 调用 ， 其 使 用 方法 也 是 相当 简单 的 。 
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下 载 好 友 数 据 


Downtoad Friend Data 


有 了 前 面 的 铺垫 ， 现 在 可 以 开始 编写 一 些 具有 实用 价值 的 方法 了 。getfriend 方法 的 作用 
是 下 载 当前 登录 用 户 的 好 友 ID, 并 以 一 个 列表 的 形式 将 其 返回 。 请 将 该 方法 加 入 fbsession: 


def getfriends (Self) : 
doc=self.sendrequest ({'method':'facebook.friends .get '， 
'session_key':self.session_key, "call_id' :callidt) }) 
results=[] 
for n in doc.getElementsByTagName('result_elt'): 
results.append(n.firstChild.nodeValue) 
return results 


因为 getfriends 只 返回 ID, 所 以 我 们 还 须要 另 一 个 方法 来 下 载 实际 的 人 员 信 息 。getinfo 
方法 以 用 户 ID 列表 作为 参数 , 调用 Facebook 的 getInfo API, 该 函数 只 请 求 了 少量 选 定 的 
字段 ,不 过 我 们 可 以 在 此 基础 上 进行 扩展 ， 只 要 向 fields 中 加 入 更 多 的 字段 ， 并 修改 从 返 
回 结果 中 解析 并 提取 相关 信息 的 代码 即 可 。 在 Facebook 的 开发 者 文档 中 ， 有 一 个 完整 的 字 
段 列表 介绍 ， 


def getinfo(self,users): 
ulist=', '.join(users) 


fields='gender,current_location, relationship status, "+ 
‘affiliations, hometown_location' 


doc=self.sendrequest ({ 'method': 'facebook.users.getInfo', 
*session_key':self.session_key, 'call_id':callid(), 
‘users':ulist, 'fields':fields}) 


results={} 

for n,id in zip(doc.getElementsByTagName('result_eit'),users): 
# 得 到 家 庭 住址 的 信息 
locnode=n.getElementsByTagName ('hometown_location"') [0] 
loc=getsinglevalue (locnode, 'city')+', '+getsinglevalue (locnode, 'state’) 


# 得 到 就 读 学 校 的 信息 
college='' 
gradyear='0' 
affiliations=n.getElementsByTagName('affiliations elt') 
for aff in affiliations: 
# 类 型 为 1 代表 学 校 
if getsinglevalue (aff, 'type')=='1': 
college=getsinglevalue (aff, 'name') 
gradyear=getsinglevalue (aff,'year') 


results[id]={'gender':getsinglevalue(n, 'gender'), 
*status':getsinglevalue(n, relationship status'), 


‘location':loc, 'college':college, 'year':gradyear} 
return results 
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上 述 函 数 以 字典 的 形式 返回 最 终 的 结果 ， 它 将 一 个 用 户 D 与 相应 的 信息 子 集 建立 起 了 映射 
关系 。 我 们 可 以 利用 这 一 数据 来 构造 新 的 婚介 数据 集 。 如 果 愿 意 的 话 ， 我 们 也 可 以 在 自己 
的 Python 会 话 中 尝试 一 下 新 的 Facebook 类 : 


>>> import facebook 

>>> s=facebook .fbsession() 

登录 后 请 按 回 车 : 

>>> friends=s.getfriends () 

>>> friends[1] 

u’iYSTTbS-Ofvs. ° 

>>> s.getinfo (friends [0:2]) 

{u'iA8l0MUfhfsw.': {'gender': u'Female', ‘location’: u'Atlanta, '}, 
u'iY5TTbS-Ofvs.': {'gender': u'Male', ‘location’: u'Boston, '}} 


构造 匹配 数据 集 


飞 a 4 4 i p5 
E es a $ teste thy b teig T 
PIL VEGI LILES EL 


Wy oc 


在 我 们 的 练习 中 ， 最 后 一 个 用 到 的 Facebook API 调用 ， 是 判断 两 人 是 否 为 好 友 。 我 们 将 该 
判断 结果 用 作 新 数据 集中 的 “答案 "。 这 一 API 调用 要 求 我 们 提供 两 个 大 小 相同 的 ID 列表 ， 
并 返回 一 个 新 的 列表 , 其 中 每 一 个 配对 对 应 一 个 数字 一 一 如 果 两 人 是 好 友 则 取 值 1， 否 则 就 
取 值 0。 请 将 该 方法 加 入 类 中 : 


def arefriends (self,idlistl,idlist2): 

idl=','.join(idlist1) 

id2=',*.join{idlist2) 

doc=self.sendrequest ({'method':'’facebook.friends.areFriends', 
‘session key':self.session_key, 'call_ id':callid(), 
人 

results=[] 

for n in doc.getElementsByTagName ('result_elt'): 

results.append(n.firstChild.nodeValue) 
return results 


最 后 ， 我 们 将 所 有 这 些 成 果 组 织 起 来 ， 构 造 一 个 可 供 LIBSVM 使 用 的 数据 集 。 这 一 过 程 涉 
及 : 得 到 一 个 包含 登录 用 户 所 有 好 友 的 列表 ， 下 载 他 们 的 个 人 信息 ， 为 每 一 个 可 能 的 配对 
建立 一 个 数据 行 ， 然 后 判断 该 配对 中 两 人 是 否 为 好 友 。 请 将 makedataset 加 入 类 中 ， 


def makedataset (self): 
from advancedclassify import milesdistance 
# 得 到 有 关于 我 的 所 有 好 友 的 全 部 信息 
friends=self.getfriends () 
info=self.getinfo(friends) 
idsl,ids2=[], [] 
rows=[] 


# 以 嵌 套 方式 遍历 ， 判 断 每 两 个 人 彼此 间 是 否 为 好 友 
for i in range(len(friends)): 


fl=friends [i] 
datal=info[f1] 
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# 因为 从 i+1 开始 ， 所 以 不 会 重复 
for j in range(it+1,len(friends)): 
f2=friends([}j]) 
data2=info[f2] 
idsl.append(f1) 
ids2.append(f2) 


# 根据 对 原 有 数据 的 判断 生成 一 些 新 的 值 

if datal['college']==data2['college']: sameschool=1 
else: sameschool=0 

malel=(datal['gender'])=='Male') and 1 or 0 
male2=(data2['gender')=='Male') and 1 or 0 


row=[malel, int (datal['year']),male2, int (data2['year']),sameschool] 
rows .append (row) 
# 针对 每 两 个 人 ， 批 量 调用 arefriends 
arefriends=[] 
for i in range(0,len(ids1),30): 
j=min (i+20, len (idsi)) 
pa=self.arefriends (idsl[{i:j],ids2[i:}j]) 
arefriends+=pa 
return arefriends, rows 


上 述 方 法 将 性 别 和 状态 转换 成 了 数字 ， 从 而 使 该 数据 集 能 够 直接 为 LIBSVM 所 用 。 在 最 后 
的 循环 中 ， 因 为 Facebook 限制 了 单 次 请 求 的 数据 规模 ， 因 此 我 们 是 以 批量 的 方式 请 求 每 两 
个 人 的 好 友 状 态 的 〈 即 判断 是 否 为 好 友 )。 


构造 SVM 模型 


Creating an SVM Mode! 


为 了 尝试 在 前 述 数据 的 基础 上 构造 SVM， 请 重新 载 人 facebook 类 ， 新 建 一 个 会 话 ， 并 构 
造 相应 的 数据 集 : 


>>> reload (facebook) 
<module “facebook' from 'facebook.pyc'> 
>>> s=facebook. fbsession () 


登录 后 请 按 回 车 : 
>>> answers ,data=s.makedataset () 


我 们 应 该 可 以 在 此 基础 上 直接 运行 svm 方法 : 


>>> param = svm_parameter(kernel_type = RBF) 
>>> prob = svm_problem (answers, data) 
>>> m=svm_model (prob, param) 


>>> m.predict([(1,2003,1,2003,1]) # 两 人 均 为 男士 ， 同 一 年 毕业 ， 就 读 于 同一 所 学 校 
1.0 

>>> m.predict([1,2003,1,1996,0]) # 不 同年 毕业 ， 就 读 于 不 同 的 学 校 

0.0 


当然 ， 你 所 得 到 的 最 终结 果 可 能 会 有 所 不 同 ， 但 是 作为 一 个 典型 的 例子 ， 模 型 极 有 可 能 会 
得 到 类 似 这 样 的 结论 ， 进入 同一 所 大 学 或 来 自 同一 家 乡 的 人 ， 很 有 可 能 会 成 为 好 朋友 。 
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练习 


Fxercises 


由 叶 斯 分 类 器 ”我 们 在 第 6 章 中 构造 的 贝 叶 斯 分 类 器 是 否 可 以 用 于 婚介 数据 集 呢 ? ES 
找到 一 个 恰当 的 例子 加 以 说 明 ? 


. 优化 分 界线 ”我们 是 否 可 以 利用 第 5 章 中 学 到 的 优化 方法 ， 而 不 是 仅 用 求 均值 的 方法 来 


选择 分 界线 呢 ? 你 会 选用 什么 样 的 成 本 函数 呢 ? 


. 选择 最 佳 核 参 数 ”请 编写 一 个 函数 ， 以 遍历 的 方式 为 gamma 参数 选择 不 同 的 取 值 ， 并 针 


对 给 定数 据 集 找 出 最 佳 取 值 。 


. 兴趣 爱好 的 层级 排列 ”请 为 兴趣 爱好 设计 一 个 简单 的 层级 排列 ， 并 用 一 个 数据 结构 来 描 


述 它 。 请 修改 matchcount 函数 ， 使 其 能 够 利用 这 一 层级 结构 来 给 出 相应 的 匹配 分 值 。 


. 其 他 的 LIBSVM 核 方法 ”请 阅读 LIBSVM 的 文档 , 看 看 还 有 哪些 核 方法 可 以 使 用 。 tz 


试 一 下 多 项 式 核 方 法 (polynomial kerne1) 。 看 看 预测 的 效果 是 否 有 所 改进 。 


. 基于 Facebook 的 其 他 字段 进行 预测 “请 查阅 Facebook API 的 文档 ， 找 出 所 有 可 供 使 用 


的 字段 。 我们 可 以 为 一 位 来 自 Facebook 的 用 户 构造 什么 样 的 数据 集 ? 我 们 是 否 可 以 利用 
SVM 模型 来 做 这 样 的 预测 : 根据 某 人 就 读 的 学 校 来 判断 其 是 否 会 将 某 部 影片 列 为 收藏 。 
我 们 还 可 以 做 其 他 形式 的 预测 吗 ? 
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第 10 章 
寻找 独立 特征 


Finding independent Features 





迄今 为 止 ， 除 了 第 3 章 介 绍 的 聚 类 算法 属于 非 监 督 技术 外 ， 其 余 大 部 分 章节 都 主要 集中 在 
监督 分 类 器 的 讨论 上 。 本 章 将 研究 如 何在 数据 集 并 未 明确 标识 结果 的 前 提 下 ， 从 中 提取 出 
重要 的 潜在 特征 来 。 和 聚 类 一 样 ， 这 些 方法 的 目的 不 是 为 了 预测 ， 而 是 要 尝试 对 数据 进行 
特征 识别 ， 并 且 告 诉 我 们 值得 关注 的 重要 信息 。 


回顾 第 3 章 我 们 还 记得 ， 豪 类 算法 将 数据 集中 的 每 一 行 数据 分 别 分 配给 了 层级 结构 中 的 某 
个 组 (group) 或 某 个 点 (point) 一 “每 一 项 数据 都 精确 对 应 于 一 个 组 ， 这 个 组 代表 了 组 内 
成 员 的 平均 水 平 。 特 征 提取 是 该 短 吕 起 于 为 一 般 的 表现 形式 ， 它 会 尝试 从 数据 集中 寻找 新 
的 数据 行 ， 将 这 些 新 找到 前 小 咏 和 才 咏 组合， 就 可 以 重新 构造 出 数据 集 。 和 原始 数据 集 不 
AE, (LF RAR Sh YR LPR TE ASP ERE ae 
的 。 ae a eM 













此 中 af Re DELE =" 问题 ， 这 是 一 
沸 的 屋子 里 ， 尽 管 有 许多 三 阅 的 声 ; 
别 出 某 个 声音 来 。 大 脑 和 
Hh PARAS, A 


RA, WRNBR ABA 
a ee Een aE ae 
RA, Lt OLB ATT AE SER 


FIRERED —H HEPES E E ME PAEO A. 

PEEL BRON BE, HRA “ep JRE (word-usage 
patterns) HEITIR DAREA HF Bb Bell A 38 ) CEMA i a 
PAUSE. ERR Ri 全 新 疗 报道 筑 壮 统 ， 并 从 一 组 报道 


SCRE ef HH Sat SN 
EAE EHE 


226 


ww ai bbt. com DO00000 


本 章 的 第 二 个 例子 是 关于 股票 市 场 数 据 的 ， 我 们 假定 这 些 数据 背后 潜藏 着 诸多 原因 ， 正 是 
这 些 原因 共同 组 合 的 结果 ， 导 致 了 证 券 市 场 的 格局 。 我 们 可 以 将 同样 的 算法 用 于 这 些 数据 ， 
寻找 数据 背后 的 原因 ， 以 及 它们 各 自 对 结果 所 构成 的 影响 。 


搜集 一 组 新 闻 
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首先 ， 我 们 需要 一 组 供 试验 用 的 新 闻 报 道 文章 。 这 些 文章 最 好 来 自 不 同 的 地 方 ， 如 此 ， 所 
要 讨论 的 主题 就 会 出 现 于 不 同 的 位 置 ， 这 样 更 容易 为 算法 所 识别 。 所 幸 的 是 ， 大 多 数 主流 
的 新 闻 服 务 和 Web 站 点 都 提供 了 RSS 或 Atom 订阅 源 ， 这 些 订 阅 源 有 的 针对 所 有 文章 ,也 
有 的 针对 某 个 分 类 。 在 前 几 童 中 ， 我 们 已 经 用 Universal Feed Parser 解析 过 博客 的 RSS 和 
Atom 订阅 源 , 我 们 也 可 以 用 同样 的 解析 器 去 下 载 新 闻 报 道 。 如 果 你 手头 还 没有 这 个 解析 器 ， 
请 从 http://feedparser.org 上 下 载 。 


从 主流 新 闻 电 人 台 和 报纸 到 政论 博客 ， 有 数 以 千 计 的 新 闻 来 源 可 供 我 们 选择 。 这 其 中 就 包括 : 
。 路透 社 

© Kikit 

© 纽约 时 报 

e Google News 

e Salon.com 

e Fox News 

。 ”福布斯 杂志 

。 ”美国 有 线 新 闻 网 

这 里 所 列举 的 ， 仅 仅 是 众多 可 能 来 源 中 的 一 小 部 分 。 假 如 将 来 自 政治 领域 的 持 不 同 观点 的 
新 闻 源 ， 与 那些 采用 不 同 写 作风 格 的 其 他 新 闻 源 组 合 在 一 起 ， 那 将 是 对 算法 的 一 个 更 好 的 
测试 ， 因 为 算法 应 该 能 够 从 中 找到 关键 特征 ， 并 忽略 掉 不 相关 的 部 分 。 此 外 ， 如 果 所 给 的 


数据 集 恰到好处 ， 那 么 我 们 的 特征 提取 算法 就 有 可 能 从 一 系列 带 有 特定 政治 倾向 的 故事 中 
识别 出 特征 来 ， 并 将 这 一 特征 连同 描述 同一 主题 的 其 他 特征 ， 一 起 赋予 相应 的 故事 。 


请 新 建 一 个 名 为 newsfeatures.py 的 文件 , 并 加 入 下 列 代码 以 导入 所 需 的 函数 库 , 并 给 出 一 个 
包含 新 闻 来 源 的 列表 ， 


import feedparser 
import re 


feedlist=['http://today.reuters.com/rgs/topNews', 
"http: //today.reuters.com/rss/domesticNews', 
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"http: //today.reuters.com/rss/worldNews', 
"http://hosted.ap.org/lineups/TOPHEADS-rss 2.0.xml', 

"http: //hosted.ap.org/lineups/USHEADS-rss 2.0.xml', 
'http://hosted.ap.org/lineups/WORLDHEADS-rss_ 2.0.xml', 
"http: //hosted.ap.org/lineups/POLITICSHEADS-rss 2.0.xml', 
"http: //www.nytimes.com/services/xml/rss/nyt/HomePage.xml', 
‘http: //www.nytimes.com/services/xml/rss/nyt/International.xml', 
"http://news.google.com/?output=rss', 
"http://feeds.salon.com/salon/news"', 

‘http://www. foxnews.com/xmlfeed/rss/0,4313,0,00.rss', 
‘http://www. foxnews.com/xmlfeed/rss/0,4313,80,00.rss', 
"http://www. foxnews.com/xmlfeed/rss/0,4313,81,00.rss', 
‘http://rss.cnn.com/rss/edition.rss', 
"http://rss.cnn.com/rss/edition_ world.rss', 
"http://rss.cnn.com/rss/edition us.rss'] 


上 述 订阅 源 列表 包含 了 各 种 不 同 的 新 闻 源 ， 这 些 新 闻 源 主要 来 自 于 各 大 新 闻 服 务 提供 商 的 
头条 新 闻 (Top News)、 世 界 新 闻 (World News) 和 美国 新 闻 (U.S. News) 等 栏目 。 你 也 可 
以 根据 自己 的 喜好 ， 对 订阅 源 列 表 做 相应 的 修改 ， 但 是 必须 要 保证 存在 内 容重 又 的 主题 。 
如 果 没 有 任何 文章 存在 共同 之 处 ， 那 么 算法 将 很 难 从 中 提取 出 重要 的 特征 ， 最 终 得 到 的 特 
征 将 会 变 得 没有 任何 的 实际 意义 。 


下 载 新 闻 来 源 


i r 由 全 er fine Q Ri F 
Downioading Sources 


特征 提取 算法 和 聚 类 算法 一 样 ， 接 受 一 个 大 型 的 数字 矩阵 ， 其 中 的 每 一 行 代表 一 个 数据 项 ， 
而 每 一 列 则 代表 数据 项 的 一 个 属性 。 在 本 例 中 ， 行 对 应 于 各 类 文章 ， 列 对 应 于 文章 中 的 单 
词 。 而 矩阵 中 的 每 一 个 数字 则 代表 了 某 个 单词 在 一 篇 给 定 文章 中 出 现 的 次 数 。 因 此 ， 下 面 
的 矩阵 告诉 我 们 : 单词 “hurricane” 在 文章 A 中 出 现 了 三 次 ， 单词 “democrats” 在 文章 B 
中 出 现 了 两 次 ， 等 等 。 


articles, = [Ap B; IC tinme 


words = ['hurricane', 'democrats',’world',... 
ma 
[is |] 
| 


[0,0,2,. 
see] 


为 了 从 一 个 订阅 源 中 得 到 这 样 的 矩阵 ， 与 前 面 几 章 类 似 ， 我 们 须要 用 到 所 个 方法 。 第 一 个 
方法 是 删除 文章 中 所 有 的 图 片 和 HTML 标记 。 请 将 stripHTML 添加 到 newsjfeatures.py 中 ， 


def stripHTML(h): 
pant 
s=0 
for c in h: 
if c=='<': s=1] 
elif c=='>'’; 
s=0 
p=! ' 
elif s==0; pt=c 
return p 
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正如 前 几 章 中 所 做 的 那样 ， 我 们 还 需要 一 个 方法 来 拆 分 文本 中 的 单词 。 如 果 你 事先 已 经 写 
好 了 一 个 单词 拆 分 方法 , 而 且 比 本 章 所 提供 的 简单 包含 文字 与 数字 的 正则 表达 式 更 为 复杂 ， 
那么 在 此 处 复 用 一 下 该 函数 即 可 ， 否 则 ， 就 请 将 下 列 函 数 添加 到 newsfeatures.py 中 : 


def separatewords (text): 
splitter=re.compile('\\W*') 
return [s.lower() for s in splitter.split(text) if len(s)>3] 


接 下 来 这 个 函数 所 要 实现 的 功能 是 对 所 有 订阅 源 进行 遍历 , 用 feedparser 进行 解析 , 去除 
HTML 标记 ， 并 利用 先前 定义 好 的 函数 逐个 提取 单词 。 该 函数 还 记录 了 每 个 单词 在 所 有 文 
章 中 总 共 被 使 用 的 次 数 ， 以 及 在 每 篇 文章 中 被 使 用 的 次 数 。 


请 将 该 函数 添加 到 newsfeatures.py 中 : 


def getarticlewords () : 
allwords={} 
articlewords=[] 
articletitles=[] 
ec=0 
# 遍历 每 个 订阅 源 
for feed in feedlist: 

f=feedparser.parse (feed) 


# 遍历 每 篇 文章 
for e in f.entries: 
# 跳 过 标题 相同 的 文章 


if e.title in articletitles: continue 


# 提取 单词 

txt=e.title.encode ('utf8')+stripHTML (e.description.encode ('utf8"')) 
words=separatewords (txt) 

articlewords.append({}) 

articletitles.append(e.title) 


# #£ allwords fe articlewords 中 增加 针对 当前 单词 的 计数 

for word in words: 
allwords.setdefault (word, 0) 
allwords [word] +=1 
articlewords [ec] .setdefault (word, 0) 
articlewords [ec] [word] +=1 

ec+=1 

return allwords,articlewords,articletitles 
The function has three variables: 


上 述 函 数 有 三 个 变量 。 


e allwords 记录 了 单词 在 所 有 文章 中 被 使 用 的 次 数 。 我 们 将 利用 该 变量 来 判断 , 哪些 单 
词 应 该 被 视 作 特征 的 一 部 分 。 


e articlewords 是 单词 在 每 篇 文章 中 出 现 的 次 数 。 
e articletitles 是 一 个 文章 标题 的 列表 。 
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转换 成 矩阵 
现在 我 们 手头 已 经 有 了 两 个 字典 ， 分 别 记 录 了 单词 在 所 有 文章 和 每 篇 文章 中 出 现 的 次 数 ， 
这 些 数 据 必 须 被 转换 成 先前 介绍 过 的 矩阵 形式 。 首 先 ， 我 们 来 建立 一 个 单词 列表 ， 用 作乱 
阵 的 列 。 为 了 缩减 矩阵 的 大 小 ， 我 们 可 以 去 掉 几 个 只 在 少数 几 篇 文章 中 出 现 过 的 单词 《这 
样 做 对 于 寻找 特征 可 能 不 会 有 多 大 影响 ) ， 也 可 以 去 掉 一 些 在 过 多 文章 中 出 现 的 单词 。 


此 处 ， 我 们 只 考虑 满足 如 下 要 求 的 单词 : 在 超过 三 篇 文章 中 出 现 过 ， 但 在 所 有 文章 中 出 现 
的 比例 则 小 于 60%。 随 后 ， 我 们 就 可 以 利用 一 个 嵌 套 结构 的 列表 推导 式 来 构造 矩阵 了 ， 目 
前 这 个 列表 推导 式 只 是 一 个 包含 列表 的 列表 。 每 个 内 嵌 的 列表 都 是 通过 遍历 wordvec， 并 
查找 字典 中 的 单词 构造 而 成 的 一 一 如 果 单 词 不 存在 , 就 加 0， 否则 ， 就 将 单词 在 文章 中 出 现 
的 次 数 及 单词 本 身 加 入 列表 。 


请 将 makematrix 图 数 添加 到 newsfeatures.py 中 : 


def makematrix({allw,articlew): 
wordvec=[ ] 


# 只 考虑 那些 普通 的 但 又 不 至 于 非常 普通 的 单词 
for w,c in allw.items(): 
if c>3 and c<len(articlew)*0.6: 
wordvec.append (w) 


# 构造 单词 矩阵 
11=[[(word in f and f[word] or 0) for word in wordvec] for f in articlew] 
return 11,wordvec 


请 开启 一 个 Python Bik, FFA newsfeatures。 然 后 党 试 解析 订阅 源 ， 并 构造 矩阵 ; 


$ python 

>>> import newsfeatures 

>>> allw,artw,artt= newsfeatures.getarticlewords () 

>>> wordmatrix,wordvec= newsfeatures .makematrix (allw,artw) 

>>> wordvec[0:10] 

[*increase’, ‘under’, ‘regan’, 'rise', ‘announced', 'force', 
‘street’, 'new', 'men', ‘reported'] 

>>> aztt [1] 

u'Fatah, Hamas men abducted freed: sources’ 

>>> wordmatrix[1] [0:10] 

[0, 0, 0, O, 0, O, O, O, 1, 0] 


在 上 述 例子 中 ， 我 们 列 出 了 单词 向 量 中 的 前 10 个 单词 。 并 列 出 了 第 二 篇 文章 的 标题 ， 后 面 
跟着 的 是 该 篇 文章 在 单词 矩阵 中 对 应 数据 行 的 前 10 个 值 。 从 中 我 们 可 以 看 到 , 单词 “men” 
在 这 篇 文章 中 出 现 了 一 次 ， 而 其 他 几 个 单词 则 都 没有 出 现 过 。 
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先前 的 方法 


Approaches 


在 前 面 几 章 中 ,我 们 已 经 讨论 过 几 种 不 同 的 针对 文本 数据 的 单词 统计 方法 。 为 了 做 个 比较 ， 
我 们 首先 来 尝试 一 下 先前 的 这 些 方法 ， 看 看 会 得 到 什么 样 的 结果 ， 然 后 将 它们 与 特征 提取 
得 到 的 结果 进行 对 比 ， 相 信 这 样 做 是 很 有 意义 的 。 如 果 我 们 手头 有 相关 章节 的 代码 ， 就 请 
将 对 应 模块 导入 进来 ， 并 针对 目前 的 订阅 源 数据 逐一 进行 尝试 。 如 果 没 有 这 些 代 码 也 不 要 
担心 一 一 在 本 节 中 我 们 将 会 告诉 大 家 ， 如 何 将 这 些 方 法 用 于 样本 数据 。 





贝 叶 斯 分 类 


Hii 


如 你 所 知 ， 贝 叶 斯 分 类 是 一 种 监督 学 习 法 。 如 果 我 们 想 要 尝试 使 用 第 6 章 中 构造 的 贝 叶 斯 
分 类 器 ， 首 先 必 须要 对 某 几 个 样本 故事 进行 分 类 ， 以 供 分 类 器 训练 之 用 。 随 后 ， 分 类 器 才 
能 将 后 续 故 事 放 和 先前 定义 好 的 分 类 中 。 除 了 须要 在 开始 阶段 接受 训练 这 个 明显 的 缺点 外 ， 
这 种 方法 还 有 一 个 局 限 ， 开 发 人 员 必 须 确定 所 有 不 同 的 分 类 。 记 今 为 止 我 们 见 过 的 所 有 分 
类 器 ， 如 决策 树 和 支持 向 量 机 ， 在 面 对 这 样 的 数据 集 时 都 存在 同样 的 限制 。 


如 果 想 针对 这 一 数据 集 尝试 运行 贝 叶 斯 分 类 器 ， 就 须要 将 第 6 章 中 编写 的 模块 放 入 工作 目 
录 中 。 此 处 我 们 可 以 借助 articlewords 字典 ， 该 字典 原本 就 是 用 于 获取 每 篇 文章 的 特征 
集 的 。 


请 在 你 的 Python 会 话 中 尝试 输入 如 下 命令 : 


>>> def wordmatrixfeatures (x) : 
return [wordvec[w] for w in range(len(x)) if x[w]>0] 


>>> wordmatrixfeatures (wordmatrix([0]) 

["forces', 'said', ‘security', ‘attacks’, ‘iraq’, ‘its’, "pentagon',...] 
>>> import docclass 

>>> classifier=docclass.naivebayes (wordmatrixfeatures) 
>>> classifier.setdb('newstest.db') 

>>> artt[0] 

u'Attacks in Iraq at record high: Pentagon’ 

>>> # 将 其 作为 “iraqd” 故事 加 以 训练 

>>> classifier.train(wordmatrix[0],'iraq') 

>>> artt[1] 

u'Bush signs U.S.~India nuclear deal' 

>>> # 将 其 作为 “inadia” 故事 加 以 训练 

>>> classifier.train(wordmatrix[1],‘india') 

>>> artt[2] 

u’Fatah, Hamas men abducted freed: sources' 

>>> # 这 个 故事 该 属于 哪个 分 类 呢 ? 

>>> classifier.classify (wordmatrix[1]) 

u'iraq' 
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在 我 们 所 使 用 的 样本 数据 中 ， 包 含 了 许多 可 能 的 主题 ， 而 每 个 主题 中 仅 有 几 个 故事 。 最 终 ， 
贝 叶 斯 分 类 器 会 掌握 所 有 的 主题 ， 但 是 因为 它 要 求 在 每 个 主题 上 都 要 训练 若干 个 样本 ， 所 
以 这 种 分 类 器 更 加 适合 于 类 别 较 少 ， 而 每 个 类 别 包 含 的 样本 数 较 多 的 情况 。 


RX 


Clustering 
聚 类 是 迄今 为 止 我 们 看 到 过 的 唯一 一 种 非 监 督 方法 ， 第 3 章 中 已 经 对 此 有 过 论述 。 


第 3 章 所 用 的 数据 是 放 在 一 个 矩阵 中 的 ， 这 个 矩阵 与 我 们 刚才 构造 的 矩阵 完全 一 样 。 同 样 
地 ， 如 果 我 们 手头 有 那 一 章 的 代码 ， 就 请 将 其 导入 到 自己 的 Python 会 话 中 ， 然 后 针对 前 面 
的 单词 矩阵 运行 聚 类 算法 : 

>>> import clusters 

>>> clust=clusters.hcluster (wordmatrix) 

>>> clusters .drawdendrogram (clust,artt,jpeg='news.jpg') 
图 10-1 给 出 了 执行 该 聚 类 算法 的 一 个 可 能 的 结果 ， 我 们 将 结果 保存 在 一 个 名 为 newsjpg 的 
文件 中 。 


不 出 所 料 ， 主 题 相 近 的 新 闻 故 事 被 分 到 了 一 起 。 此 处 得 到 的 结果 甚至 要 比 第 3 章 中 的 那个 
博客 的 例子 更 加 令 人 满意 。 因 为 ， 不 同 的 新 闻 出 版 机 构 往往 都 倾向 于 使 用 相近 的 语言 来 报 
完全 相同 的 东西 。 不 过 ， 下 页 图 10-1 中 的 个 别 例子 也 点 出 了 一 个 问题 : 并 非 按 部 就 班 地 
将 新 闻 故 事 逐 一 放 人 各 个 “ 桶 (buckets) ”中 , 就 一 定 能 够 得 到 准确 的 结果 。 例如 ,《The Nose 
Knows Better》 原 本 是 一 篇 健康 类 的 文章 ， 而 此 处 我 们 却 将 它 与 另 一 篇 报道 《Suffolk 
Strangler) (译注 1) 的 文章 放 在 了 一 起 。 有 时， 新 闻 文 章 和 人 一 样 也 是 不 可 拆 分 的， 我 们 
必须 将 其 视 作 独一无二 的 整体 才 行 。 
如 果 愿 意 的 话 ， 我 们 还 可 以 将 矩阵 旋转 ， 看 看 故事 中 的 单词 如 何 分 组 。 在 本 例 中 ， 像 单词 
“station”, “solar” 和 “astronauts” 将 会 被 分 在 一 起 。 


TFA A A 


Non-Negative Matrix Factorization 


从 数据 中 提取 重要 特征 的 技术 ， 被 称 为 非 负 矩阵 因 式 分 解 (NMF)。 这 是 整 本 书 中 涉及 的 最 
为 复杂 的 技术 之 一 ， 为 了 理解 这 项 技术 ， 我 们 有 必要 在 此 做 进一步 的 解释 ， 并 向 大 家 简要 
介绍 一 下 线性 代数 方面 的 相关 知识 。 本 节 涵 盖 了 你 所 须 掌 握 的 全 部 内 容 。 


矩阵 数学 简介 


A Quick Introduction to Matrix Math 


为 了 理解 NMF 的 工作 原理 ， 首 先 我 们 须要 了 解 一 点 有 关 和 矩阵 乘法 方面 的 知识 。 如 果 你 已 经 
学 习 过 线性 代数 ， 就 请 放心 地 跳 过 本 节 。 


矩阵 乘法 的 例子 如 第 234 页 图 10-2 所 示 。 


译注 1: 此 处 所 指 的 ， 是 近年 来 发 生 在 英国 萨 福 克 避 的 一 起 连环 杀人 案 ， 这 起 案件 在 美国 广 受 关 
注 ， 媒 体 将 被 告 与 1888 年 出 现 于 东 人 伦敦 的 技 女 连环 杀手 “开膛 手 本 克 ” 相 提 并 论 ， 称 
之 为 “ 萨 福 克 扼 了 杀 者 (Suffolk Strangler)”. 
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10-1; 树 状 图 给 出 了 聚 类 过 后 的 新 闻 故 事 
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14 yl 3 0 | -| 1*o + 4*2 1*3 + 4*1 1*0 + 4*4 | |8716 
0 3 214| |0*0 + 3*2 0*3 + 3*1 0*0 + 3*4 6 3 12 





A B 
10-2: 和 矩阵 乘法 的 例子 


该 图 给 出 了 两 个 矩阵 相 乘 的 示意 图 。 当 两 个 矩阵 相 乘 时 ， 第 一 个 矩阵 (EPERE A) 的 列 
数 必须 与 第 二 个 矩阵 (EREB) 的 行 数 相等 。 在 本 例 中 ， 和 矩阵 A AAJ, EE B 有 两 行 。 
RERE (GERE C) 的 行 数 将 与 矩阵 A 的 行 数 相等 ， 列 数 将 与 矩阵 B 的 列 数 相等 。 


和 矩阵 C 中 每 个 元 素 的 取 值 ,是 通过 将 矩阵 A 中 相同 行 上 的 值 与 矩阵 B 中 相同 列 上 的 值 相 乘 ， 
然后 再 将 乘积 相 加 得 到 的 。 以 和 矩阵 C 左上 和 角 的 值 为 例 ， 其 计算 方法 就 是 将 矩阵 A 第 一 行 上 
的 值 与 矩阵 B 第 一 列 上 的 对 应 值 相 乘 ， 然 后 再 将 所 得 的 乘积 加 在 一 起 ， 这 样 就 得 到 了 最 终 
的 结果 。 和 矩阵 C 中 的 其 他 元 素 都 是 以 相同 方式 计算 得 到 的 。 


除 乘 法 以 外 ， 另 一 个 常用 的 矩阵 操作 是 转 置 。 所 谓 转 置 是 指 ， 将 矩阵 的 列 变 成 行 ， 行 变 成 
列 。 它 通常 用 符号 “T” 来 标示 ， 如 图 10-3 所 示 。 





10-3; HE- MER 
我 们 将 在 后 面 的 NMF 算法 实现 中 用 到 和 矩阵 的 转 置 和 乘法 操作 ，。 


这 与 文章 矩阵 有 何 关系 ? | 


mfr Ser Tis sz 4- - as a j tip i NA+ eS 
What Does This Have to Do with the Anicles Matrix 


目前 为 止 ， 我 们 手中 所 持 有 的 是 一 个 带 单词 计数 信息 的 文章 矩阵 。 而 我 们 的 目标 是 要 对 这 
个 矩阵 进行 因 式 分 解 ， 即 : 找到 两 个 更 小 的 矩阵 ， 使 得 二 者 相 乘 以 得 到 原来 的 矩阵 。 这 两 
个 矩阵 分 别 是 特征 矩阵 和 权重 矩阵 。 


特征 矩阵 


在 该 矩阵 中 ， 每 个 特征 对 应 一 行 ， 每 个 单词 对 应 一 列 。 和 矩阵 中 的 数字 代表 了 某 个 单词 
相对 于 某 个 特征 的 重要 程度 。 由 于 每 个 特征 都 应 该 对 应 于 在 一 组 文章 中 出 现 的 某 个 主 
题 ， 因 此 假如 有 一 篇 文章 报道 了 一 个 新 的 电视 秀 节 目 ， 那 么 也 许 我 们 会 期 望 这 篇 文章 
相对 于 单词 “television ”能够 有 一 个 较 高 的 权重 值 。 
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权重 矩阵 


该 矩阵 的 作用 是 将 特征 映射 到 文章 矩阵 。 其 中 每 一 行 对 应 于 一 篇 文章 ， 每 一 列 对 应 于 
一 个 特征 。 和 矩阵 中 的 数字 代表 了 ， 将 每 个 特征 应 用 于 每 篇 文章 的 程度 。 


和 文章 矩阵 一 样 ， 在 特征 矩阵 中 ， 每 个 单词 对 应 一 列 。 由 于 该 矩阵 的 每 一 行 都 对 应 着 一 个 
不 同 的 特征 ， 因 而 在 此 处 用 一 个 单词 权重 的 列表 来 表示 一 个 特征 。 图 10-4 给 出 了 一 个 特征 
矩阵 的 例子 。 


hurricane democrats florida elections 


ea: | o 3 0 


特征 2 
特征 3 


图 10-4: 一 个 特征 矩阵 


由 于 矩阵 中 的 每 一 行 都 对 应 于 一 个 由 若干 单词 联合 组 成 的 特征 ， 因 此 很 显然 ， 只 要 将 不 同 
数量 的 特征 矩阵 按 行 组 合 起 来 ， 就 有 可 能 重新 构造 出 文章 矩阵 来 。 而 权重 和 矩阵， 如 图 10-5 
所 示 ， 则 将 特征 映射 到 了 文章 。 和 矩阵 中 的 每 一 列 对 应 一 个 特征 ， 每 一 行 对 应 一 篇 文章 。 


特征 1 ”特征 2 特征 3 
hurricane in Florida | 10 0 0 


0 0 1 
0 





0 8 1 
0 5 6 


Democrats sweep elections 
Democrats dispute Florida ballots 


10-5: 一 个 权重 矩阵 
10-6 给 出 了 一 个 文章 矩阵 的 构造 过 程 ， 只 要 将 权重 矩阵 与 特征 矩阵 相 乘 ， 就 可 以 重新 构 
造 出 文章 矩阵 。 
特征 1 特征 2 特征 3 hurricane democrats florida elections hurricane democrats florida elections 
hurricane... 0 \ 特征 1 (: 0 3 0 | “eo | | 
„. SWEEP... 1 IXx 特 征 2 | 0 2 0 1 = ---Sweep,,， 


0 0 1 Florida ballot 





Florida ballots) 0 5 6 | 特征 3 
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如 果 特 征 数量 与 文章 数量 恰好 相等 ， 那 么 最 理想 的 结果 就 是 能 够 为 每 一 篇 文章 都 找到 一 个 
与 之 完美 匹配 的 特征 。 不 过 ， 在 此 处 使 用 矩阵 因 式 分 解 的 目的 ， 是 为 了 缩减 观测 数据 (本 
例 中 为 文章 ) 的 集合 规模 ， 并 且 保 证 缩减 之 后 是 以 反映 某 些 共 性 特征 。 理 想 情 况 下 ， 这 个 
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相对 较 小 的 特征 集 能 够 与 不 同 的 权重 值 相 结合 ， 从 而 完美 地 重新 构造 出 原始 的 数据 集 。 但 
在 现实 中 这 种 可 能 性 是 非常 小 的 ， 因此 算法 的 目标 是 要 尽 可 能 地 重新 构造 出 原始 数据 集 来 。 


非 负 和 矩阵 因 式 分 解 之 所 以 如 此 称呼 ， 是 因为 其 所 返回 的 特征 和 权重 都 是 非 负 值 。 在 现实 中 ， 
这 意味 着 所 有 的 特征 值 都 必须 是 正 数 或 零 ， 这 一 点 对 于 我 们 的 例子 而 言 是 毫 无 疑问 的 ， 因 
为 单词 在 一 篇 文章 中 出 现 的 次 数 是 不 可 能 为 负 的 。 同 时 ， 这 也 意味 着 特征 是 不 能 做 减法 的 
( 即 从 某 些 特征 中 去 掉 一 部 分 其 他 的 特征 ) 一 一 如 果 明 确 排 除 掉 某 些 单词 , 则 NMF 将 无 法 
找到 有 效 解 。 尽 管 这 样 的 约束 也 许 会 阻碍 算法 得 到 最 佳 的 因 式 分 解 ， 但 是 其 结果 却 往 往 更 
易于 理解 。 


使 用 NumPy 


Python 的 标准 库 中 并 没有 提供 支持 矩阵 操作 的 函数 。 尽 管 我 们 可 以 自己 编写 这 样 的 函数 ， 
但 是 还 有 一 个 更 好 的 选择 ， 那 就 是 安装 一 个 名 为 NumPy 的 包 ， 这 个 包 不 仅 提供 了 一 个 矩阵 
对 象 和 所 有 必要 的 矩阵 操作 ,而且 其 性 能 堪 比 商业 数学 软件 。 我 们 可 以 从 http /numpy.scipy. 
org 处 下 载 到 NumPy, 


更 多 关于 安装 NumPy 的 信息 ， 请 见 附录 A. 


NumPy 提供 了 一 个 矩阵 对 象 ， 我 们 可 以 利用 一 个 嵌 套 的 列表 对 其 进行 初始 化 ， 同 时 该 矩阵 
对 象 的 结构 与 此 前 我 们 构造 的 文章 矩阵 非常 的 类 似 。 为 了 立刻 看 到 效果 ,我 们 可 以 将 NumPy 
导入 到 自己 的 Python 会 话 中 ， 并 创建 一 个 矩阵 试 试 : 


>>> from numpy import * 
>>> ll=[[1,2,3],[4,5,6)] 
>>> I1 
((1, 2, 3], (4, 5, 6)] 
>>> mil=matrix(11) 
>>> mi 
matrix([[1, 2, 3], 

[4, 5, 6))) 


NumPy 提供 的 矩阵 对 象 支持 若干 数学 运算 ， 其 中 包括 了 以 标准 运算 符 表 示 的 乘法 运算 和 加 
法 运算 。 而 和 矩阵 的 转 置 操 作 则 是 通过 transpose 函数 实现 的 ; 


>>> m2=matrix{([[1,2],[3,4],[5,6]]) 
>>> m2 
matrix([[1, 2], 
[3, 4], 
{S, 6]]) 
>>> ml*m2 
matrix([[22, 28], 
[49, 64]]) 
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此 处 ，shape 函数 所 返回 的 是 矩阵 的 行 数 和 列 数 ， 这 对 于 循环 遍历 矩阵 中 的 所 有 元 素 是 很 
有 帮助 的 : 

>>> shape (ml) 

(2, 3) 

>>> shape (m2) 

(3, 2) 
最 后 , NumPy 还 提供 了 一 个 高 效 的 数组 对 象 〈fast array object)。 和 矩阵 一 样 ， 数 组 对 象 也 
可 以 是 多 维 的 。 我 们 可 以 很 容易 地 将 一 个 和 矩阵 转换 成 数组 ， 反 之 亦 然 。 当 进行 乘法 运算 时 ， 
数组 的 行为 与 矩阵 有 所 不 同 ， 数 组 仅 当 彼此 拥有 完全 相同 的 形式 时 (译注 2) 才 可 以 相 乘 ， 
并 且 其 运算 规则 是 将 一 个 数组 中 的 每 个 值 与 另 一 数组 中 的 对 应 值 相 乘 。 如 下 所 示 ， 


>>> al=ml .A 
>>> al 
array([[1, 2, 3], 
[4, 5, 6)]) 
>>> a2earray([{(1,2,3],[1,2,3]]) 
>>> al*a2 
array([[ 1, 4, 9], 
[ 4, 10, 18]]) 
NumPy 的 高 性 能 优势 ， 对 于 我 们 后 面 即将 要 看 到 的 NM 算法 实现 而 言 ， 是 很 有 必要 的 ， 
因为 NMF 算法 需要 大 量 的 和 矩阵 运算 。 


算法 实现 


Ihe Aiganthm 


我 们 即将 要 讨论 的 对 和 矩阵 进行 因 式 分 解 的 算法 最 早 是 在 20 世纪 90 年 代 后 期 公布 的 ， 因 此 
本 书 所 介绍 的 这 一 算法 实现 目前 是 最 新 的 。 有 证 据 表 明 ， 该 算法 实现 在 某 些 问题 的 处 理 上 
表现 出 了 很 高 的 效率 ， 比 如 从 一 组 照片 中 自动 判断 出 不 同 的 面部 特征 就 是 一 个 例子 。 


通过 计算 最 佳 的 特征 矩阵 和 权重 矩阵 ， 算 法 尝试 尽 最 可 能 大 地 来 重新 构造 文章 矩阵 。 在 本 
例 中 ， 我 们 很 有 必要 找到 一 种 办 法 来 对 最 终结 果 与 理想 结果 的 接近 程度 加 以 衡量 。 为 此 我 
们 定义 了 difcost 函数 ， 该 函数 针对 两 个 同样 大 小 的 矩阵 遍历 其 中 的 每 一 个 值 ， 并 将 两 者 
间 差 值 的 平方 累加 起 来 。 


请 新 建 一 个 名 为 nmf py 的 文件 ， 并 将 difcost 函数 加 入 其 中 : 


from numpy import * 


def difcost (a,b): 

dif=0 

# 遍历 矩阵 中 的 每 一 行 和 每 一 列 

for i in range (shape (a) [0]): 

for j in range (shape (a) [1]) : 

# 将 差 值 相 加 
dif+=pow(a[i,j]-bli,j],2) 

return dif 


译注 2: 即行 数 和 列 数 都 相同 。 
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现在 ， 我 们 需要 一 种 方法 能 够 逐步 地 更 新 矩阵 ， 以 使 成 本 函数 的 计算 值 逐 步 降低 。 假 如 你 
已 经 阅读 过 第 5 章 ， 就 会 明白 此 处 我 们 需要 的 是 一 个 成 本 函数 ， 并 且 我 们 一 定 可 以 借助 退 
火 优化 算法 或 群 (swarm) 优化 算法 搜索 到 一 个 满意 的 题解 。 然 而 ， 搜 索 最 优 解 的 一 种 更 为 
行 之 有 效 的 方法 ， 是 使 用 策 法 更 新 法 则 (multiplicative update rules), 


有 关 这 一 组 法 则 的 来 历 已 经 超出 了 本 章 讨论 的 范围 ， 但 是 假如 你 有 兴趣 了 解 更 多 的 背景 资 
料 ， 可 以 在 hitp//hebb.mit.edu/people/seung/papers/nmfconverge.pdf 处 找到 原始 的 论文 。 

这 些 法 则 产生 了 4 个 新 的 更 新 矩阵 (update matrices) 。 在 下 面 的 说 明 中 , 我 们 将 最 初 的 文章 
和 矩阵 称 为 数据 和 矩阵 。 

hn 


经 转 置 后 的 权重 矩阵 与 数据 矩阵 相 乘 得 到 的 矩阵 。 
hd 
经 转 置 后 的 权重 矩阵 与 原 权重 矩阵 相 乘 ， 再 与 特征 和 矩阵 相 乘 得 到 的 矩阵 。 
wn 
数据 和 矩阵 与 经 转 置 后 的 特征 矩阵 相 乘 得 到 的 矩阵 。 
wd 
eM SEER, FOH RRR eA. 
为 了 更 新 特征 和 矩阵 和 权重 和 矩阵， 我 们 首先 将 上 述 所 有 和 矩阵 都 转换 成 数组 。 然 后 将 特征 矩阵 
中 的 每 一 个 值 与 hn 中 的 对 应 值 相 乘 ， 并 除 以 hd 中 的 对 应 值 。 类 似 地 ， 我 们 再 将 权重 矩阵 
中 的 每 一 个 值 与 wn 中 的 对 应 值 相 乘 ， 并 除 以 wd 中 的 对 应 值 。 
HAR factorize 的 作用 就 是 完成 上 述 计算 任务 的 。 请 将 factorize 添加 到 nmfpy 中 
def factorize(v,pc=10,iter=50): 


ic=shape (v) [0] 
fc=shape (v) [1] 


E VAAL 4745 104 E 4E fo FF AE HE 

w=matrix([[random.random() for j in range(pc)]} for i in range(ic)]) 
h=matrix([{[random.random() for i in range (fc)】 for i in range(pc))) 
# 最 多 执行 iter 次 操作 

for i in range (iter): 


wh=w*h 


# 计算 当前 差 值 


cost=difcost (v, wh) 
if i1%10==0: print cost 


E RHEL DM i Rh, WEP 
if cost==0: break 
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# ROA AEA 
hn= (transpose (w) *v) 
hd= (transpose (w) *w*h) 


h=matrix (array (h) *array (hn) /array (hd) ) 


# 更 新 权重 矩阵 
wn= (v* transpose (h) ) 
wd= (w*h* transpose (h) )} 


w=matrix (array (w) *array (wn) /array (wd) ) 


return w,h 


上 述 函 数 要 求 我 们 指定 希望 找到 的 特征 数 。 有 了 时， 我 们 的 确 清楚 须要 寻找 的 特征 数量 (ke 
如 ， 在 一 段 录音 中 的 两 种 声音 ,或 是 当天 的 五 大 新 闻 主题 ); 但 有 时 ， 我 们 却 无 法 得 知 到 底 
要 指定 多 少 特征 。 没 有 一 种 通用 的 方法 可 以 自动 确定 正确 的 特征 数目 ， 但 是 借助 实验 手段 ， 
可 以 找到 一 个 合理 的 范围 。 


请 开启 会 话 ， 针 对 和 矩阵 ml*m2 尝试 运行 上 述 函 数 ， 看 一 看 该 算法 是 否 能 够 找到 一 个 逼近 原 
始 矩 阵 的 和 解 : 


>>> import nmf 

>>> w,h= nmf.factorize (ml*m2 ,pc=3,iter=100) 
7632.94395925 

0.0364091326734 


1.12810164789e-017 

6.8747907867e-020 

>>> wth 

matrix([{{ 22., 28.], 
{ 49., 64.]]) 


>>> ml*m2 
matrix([[22, 28], 
[49, 64]]) 


上 述 算法 成 功 地 找到 了 权重 矩阵 和 特征 矩阵 ， 使 得 这 两 个 矩阵 相 乘 的 结果 与 原始 和 矩阵 完美 
匹配 。 我 们 也 可 以 尝试 将 该 算法 用 于 前 面 的 文章 矩阵 ， 看 一 看 它 提 取 关 键 特征 的 表现 如 何 
(这 也 许 会 耗费 一 些 时 间 ): 

>>> v=matrix (wordmatrix) 

>>> weights, feat=nmf. factorize (v,pc=20,iter=50) 

1712024.47944 

2478.13274637 

2265.75996871 


2229.07352131 
2211.42204622 


变量 feat 现在 保存 着 新 闻 报 道 的 特征 ,而 保存 在 变量 weights 中 的 则 是 将 各 特征 应 用 于 每 
篇 文章 的 权重 。 不 过 通过 观察 我 们 发 现 ， 最 后 得 到 的 矩阵 并 不 是 十 分 的 理想 。 我 们 需要 一 
种 方法 来 呈现 最 终 的 结果 ， 并 对 其 加 以 解释 。 
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结果 呈现 

Displaying the Results 

如 何 恰如其分 地 将 最 终结 果 呈 现 出 来 呢 ， 要 回答 这 个 问题 稍 有 一 些 复杂 。 特 征 和 矩阵 中 的 每 
个 特征 都 有 一 个 权重 ， 它 是 用 来 指示 每 个 单词 应 用 到 该 特征 的 程度 的 ， 因 此 可 以 尝试 列 出 
每 一 个 特征 中 的 前 S 或 前 10 个 单词 来 ， 看 看 在 该 特征 中 哪 几 个 单词 的 重要 程度 是 最 高 的 。 
在 权重 和 矩阵 里 对 应 列 上 的 数字 告诉 我 们 的 ， 是 该 特征 应 用 于 每 一 篇 文章 的 权重 值 。 因 此 ， 
假如 我 们 列 出 前 三 篇 文章 的 权重 ， 借 此 来 考查 该 项 特征 应 用 于 所 有 文章 的 情况 ， 同 样 也 是 
很 有 意义 的 。 

请 将 一 个 名 为 showfeatures 的 新 函数 添加 到 newsfeatures.py 中 : 


from numpy import * 

def showfeatures (w,h,titles,wordvec,out='features.txt'): 
outfile=file(out, 'w') 
pc, wc=shape (h) 
toppatterns=[[] for i in range(len(titles) ) ] 
patternnames=[] 


# 遍历 所 有 特征 

for i in range(pc): 
slist=[] 
# 构造 一 个 包含 单词 及 其 权重 数据 的 列表 
for j in range(wc): 

Sslist.append((h[i,j]),wordvec[j])) 

+ 将 单词 列表 倒序 排列 
Slist.sort() 
slist.reverse () 


# 打印 开始 的 6 个 元 素 

n=[s{1] for s in slist[0:6]] 
outfile.write(str(n)+'\n') 
patternnames. append (n) 


+ 构造 一 个 针对 该 特征 的 文章 列表 

flist=[] 

for j in range(len(titles)): 
# 加 入 文章 及 其 权重 数据 
flist.append({w[j,i],titles{[j])) 
toppatterns[j] .append({(w[j,i],i,titles[j}))) 


# 将 该 列表 倒序 排列 
flist.sort () 
flist.reverse() 


# 显示 前 3 篇 文章 

for fin Flist(0s3): 
outfile.write(str(f)+'\n') 

outfile.write('\n') 


outfile.close() 
# 返回 模式 名 称 ， 以 供 后 续 使 用 


return toppatterns,patternnames 
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上 述 函 数 遍 历 每 一 个 特征 ， 并 构造 了 一 个 包含 所 有 单词 权重 及 其 对 应 单词 ( 取 自 单词 向 量 ) 
的 列表 。 函 数 对 列表 还 进行 了 排序 ， 从 而 使 得 相对 于 某 一 特征 拥有 最 大 权重 的 单词 出 现在 
列表 的 最 前 面 。 随后， 函数 将 这 些 单词 中 的 前 10 个 打印 输出 (译注 3)。 由 此 ， 我 们 应 该 会 
对 这 一 特征 所 要 表达 的 主题 有 一 个 较为 准确 的 把 担 了 。 函 数 最 后 返回 了 排 在 最 前 面 的 模式 
(pattems) 及 其 名 称 ，, 因此 我 们 仅 须 计算 一 次 , 就 可 以 将 其 再 次 用 于 后 面 的 showarticles 
FAR. 


在 列 出 特征 之 后 ，showfeatures 国 数 又 循环 遍历 了 文章 的 标题 ， 并 根据 权重 矩阵 中 文章 与 
特征 间 形 成 的 权重 值 ， 对 结果 进行 了 排序 。 随 后 ， 函 数 从 中 选 出 了 与 特征 关联 最 为 紧密 的 3 
篇 文章 ， 连 同 其 在 权重 矩阵 中 的 对 应 值 一 起 打印 输出 。 我 们 会 发 现 ， 有 时 一 个 特征 可 能 会 
对 多 篇 相关 的 文章 都 很 重要 ， 而 有 时 却 只 会 对 某 篇 文章 构成 影响 .。 


现在 ， 我 们 可 以 调用 showfeatures 函数 对 特征 进行 考查 了 : 


>>> reload (newsfeatures) 
<module "newsfeatures' from 'newsfeatures.py'> 
>>> topp,pn= newsfeatures.showfeatures (weights, feat,artt,wordvec) 


因为 结果 非常 元 长 ， 所 以 代码 将 之 保存 到 了 一 个 文本 文件 中 。 我 们 要 求 函 数 生成 20 个 不 同 
的 特征 。 很 显然 ， 在 数 以 百 计 的 文章 中 ， 存 在 的 主题 肯定 不 止 20 个 。 但 是 ， 我 们 希望 找到 
的 是 那些 最 为 关键 的 特征 。 例 如 ， 请 看 下 面 的 例子 : 
[u'palestinian', u'elections’', u'abbas', u'fatah’', u'monday', u'new') 
(14.189453058041485, u'US Backs Early Palestinian Elections - ABC News') 


(12 .748863898714507, u'Abbas Presses for New Palestinian Elections Despite Violence') 
(11.286669969240645, u'Abbas Determined to Go Ahead With Vote') 


上 述 特征 清晰 地 列 出 了 一 组 与 巴勒斯坦 选举 有 关 的 单词 ， 而 且 还 列 出 了 一 组 与 特征 所 要 表 
达 的 主题 关系 密切 的 文章 。 由 于 生成 这 些 结果 的 依据 来 自 于 文章 的 标题 和 一 部 分 正文 ， 因 
此 我 们 可 以 看 到 ， 第 1 篇 文章 和 第 3 篇 文章 都 与 上 述 特征 紧密 相关 ， 即 便 两 者 的 标题 中 并 
没有 任何 单词 是 一 样 的 。 另 外 ， 因 为 单词 的 重要 性 是 根据 其 在 大 量 文章 中 被 引用 的 次 数 而 
得 到 的 ， 所 以 单词 “palestinian” 和 “elections” 位 于 最 前 列 。 
有 些 特征 并 没有 这 样 一 组 明确 无 颖 的 文章 与 之 关联 ， 但 是 它们 仍然 为 我 们 提供 了 颇 有 价值 
的 结果 。 请 看 下 面 的 例子 : 
{u'cancer', u'fat', u'low', u'breast', u'news', u'diet'] 
(29.808285029040864, u'Low-Fat Diet May Help Breast Cancer') 


(2.3737882572527238, u'Big Apple no longer Fat City') 
(2.3430261571622881, u'The Nose Knows Better') 


很 显然 ， 此 处 的 特征 与 第 1 篇 介绍 乳癌 的 文章 有 着 极为 紧密 的 关系 。 然 而 ， 后 面 还 有 几 篇 
关系 不 是 那么 紧密 的 文章 是 与 健康 相关 的 ， 这 些 文章 中 有 一 部 分 单词 与 第 一 篇 文章 是 相同 
的 。 


译注 3: 上 述 函 数 代 码 中 实际 打印 的 是 前 6 个， 原文 此 处 有 误 。 
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以 文章 的 形式 呈现 


Ny TFI Ty Ar Taille 
Displaying by Article 


关于 结果 数据 的 呈现 方式 ， 还 有 一 种 可 供 选 择 的 方法 ， 就 是 列 出 每 篇 文章 及 应 用 于 该 篇 文 
章 的 前 三 项 特征 。 借 此 可 以 判断 出 ， 一 篇 文章 是 由 相同 数量 的 几 个 主题 共同 构成 的 ， 还 是 
由 某 个 权重 很 高 的 主题 单独 构成 的 。 


请 将 新 范 数 ，showarticles， 添 加 到 newsfeatures.py HP: 


def showarticles (tit1les,toppatterns, patternnames, out='articles.txt'): 
outfile=file(out, 'w') 


# 遍历 所 有 的 文章 
for j in range(len(titles)): 
outfile.write(titles[j] .encode(’utf8')+’\n") 


# 针对 该 简 文 章 ， 区 得 排 位 最 弈 前 的 几 个 特征 
E 并 将 其 按 倒序 排列 
toppatterns([4j].sort() 
toppatterns[j] .reverse () 


# 打印 前 3 个 模式 
for i in range(3): 
outfile.write(str(toppatterns[j][i][0])+' '+ 
str (patternnames [toppatterns[j][(i][1])])+'\n') 
outfile.write('\n') 


outfile.close() 


因为 针对 每 篇 文章 的 前 几 项 特征 已 经 由 showfeatures 函数 计算 得 到 ， 所 以 上 述 函 数 只 是 
遍历 了 所 有 的 文章 标题 ， 将 其 打印 输出 ， 然 后 再 列 出 每 篇 文章 的 前 几 个 模式 。 


为 了 运行 上 述 函 数 ， 请 重新 加 载 newsfeatures.py， 并 为 其 传人 文章 标题 和 showfeatures 返 
回 的 结果 ， 
>>> reload (newsfeatures) 


<module ‘newsfeatures’ from 'newsfeatures.py'> 
>>> newsfeatures.showarticles (artt,topp,pn) 


上 述 代码 的 执行 将 会 产生 一 个 名 为 articles.txt 的 文件 , 其 中 包含 了 一 系列 文章 , 以 及 与 之 关 
系 最 为 紧密 的 模式 。 例 如 下 面 就 是 一 个 很 好 的 例子 ， 一 篇 文章 中 包含 了 两 个 内 容 相 同 的 特 
征 : 

Attacks in Iraq at record high: Pentagon 

5.4890098003 [u'monday', u'said', u'oil', u'iraq', u'attacks', u'two'] 


5 . 33447632219 [u'gates', u'iraq', u'pentagon’, u'washington', u'over’, u'report'] 
0.618495842404 [u'its', u'iraqi', u'baghdad’, u'red', u'crescent', u'monday'] 


很 显然 ， 这 两 个 特征 都 是 与 Iraq 相关 的 ， 但 这 篇 文章 又 不 是 非常 的 典型 ， 因 为 文中 并 没有 
涉及 “oil ”或 “8gates 。 通 过 构造 出 可 以 组 合 使 用 的 ， 同 时 又 不 是 专门 针对 于 某 篇 文章 裁剪 
得 来 的 模式 ， 我 们 的 算法 能 够 以 较 少 的 模式 来 覆盖 更 多 的 文章 。 
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下 面 这 篇 文章 有 一 个 权重 值 很 高 的 特征 ， 但 是 这 一 特征 却 无 法 应 用 于 其 他 任何 文章 : 


Yogi Bear Creator Joe Barbera Dies at 95 

11.8474089735 [u'barbera', u'team', u'creator’, u'hanna', u‘dies’, u'bear'] 
2.21373704749 [u'monday', u'said', u'oil', u'iraq', u'attacks', u'two') 
0.421760994361 [u'man', u'was', u'year', u'his', u‘old', u'kidnapping'] 


因为 我 们 所 使 用 的 模式 非常 少 ， 所 以 也 有 可 能 会 出 现 少 量 与 其 他 任何 文章 都 没有 什么 相似 
性 的 文章 ， 并 且 也 得 不 出 有 关于 它们 自身 的 模式 来 。 此 处 就 有 一 个 这 样 的 例子 ， 


U.S. Files Charges in Fannie Mae Accounting Case 

0.856087848533 [u'man', u'was', u'year', u'his', u'old', u’kidnapping’] 
0.784659717694 [u'’climbers', u'hood', u'have', u'their', u'may', u'deaths'] 
0.562439763693 [u'will', u'smith', u'news', u'office', u'box’, u'all'] 


我 们 可 以 发 现 ， 在 这 个 例子 中 位 于 最 前 面 的 几 个 特征 与 文章 并 没有 什么 相关 性 ， 而 且 看 上 


去 几乎 都 是 随机 产生 的 。 所 幸 的 是 ， 此 处 的 权重 值 都 非常 小 ， 因 而 很 明显 我 们 不 会 将 这 些 
特征 真正 应 用 于 该 篇 文章 中 。 
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NMF 除了 能 够 处 理 一 些 像 单词 计数 这 样 的 带 有 名 词性 数据 的 问题 外 ， 还 适用 于 包含 真正 的 
数值 型 数据 的 问题 。 本 节 我 们 将 告诉 大 家 如 何 利用 同样 的 算法 , 借助 从 Yahoo! Finance 下 载 
得 到 的 数据 ， 对 美国 股票 市 场 的 交易 量 进行 分 析 。 通 过 对 数据 的 分 析 ， 我 们 可 以 找 出 反映 
重要 交易 日 的 模式 ， 以 及 潜在 因素 如 何 得 以 驱动 多 支 股 票 交 易 量 的 原因 。 


金融 市 场 被 认为 是 集体 智慧 的 一 个 典型 的 例子 ， 因 为 它们 拥有 为 数 众 多 的 参与 者 ， 这 些 参 
与 者 们 根据 掌握 的 各 种 信息 和 行情 ， 彼 此 独立 地 采取 行动 ， 并 产生 少量 的 输出 ， 比 如 : 价 
格 和 成 交 量 。 已 经 证 明 在 价格 预测 方面 ， 群 体 相 对 于 个 体 而 言 有 着 更 大 的 优势 。 有 大 量 的 
学 术 研 究 表明 ， 在 金融 市 场 的 价格 制定 方面 ， 群 体 比 任何 个 体 都 更 有 可 能 获得 成 功 。 


什么 是 成 交 量 


What Is Trading Yolume? 


对 于 某 支 股票 而 言 ， 成 交 量 就 是 指 在 某 一 给 定时 间 段 内 (通常 是 1 天 ) 所 买卖 的 股票 份 数 。 
下 页 图 10-7 显示 的 是 一 张 Yahoo! 股 票 的 走势 图 ， 股 票 代码 (ticker symbol) 为 YHOO, 位 
于 最 上 方 的 线 代表 收盘 价 ， 就 是 当天 最 后 一 次 交易 的 价格 。 下 面 的 柱状 图 则 给 出 了 成 交 量 。 


你 会 发 现 ， 当 股票 价格 有 较 大 变化 的 时 候 ， 成 交 量 在 那 几 天 往往 就 会 变 得 很 高 。 这 通常 会 
发 生 在 公司 发 表 重 要 声明 或 发 布 财务 报告 的 时 候 。 此 外 ， 当 有 涉及 公司 或 业界 的 新 闻 报 道 
， 也 会 导致 价格 出 现 “突变 ”(spikes) 。 在 缺少 外 部 事件 影响 的 情况 下 ， 对 于 某 支 股票 而 
， 成 交 量 通常 是 〈 但 不 总 是 ) 保持 不 变 的 。 


w3 
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10-7: 显示 了 价格 和 成 交 量 的 股票 走势 图 





在 本 节 中 ， 我 们 将 会 在 时 间 序 列 上 对 一 组 股票 的 成 交 量 进行 考查 。 从 中 找到 即刻 会 对 多 支 

股票 构成 影响 的 反映 成 交 量变 化 的 模式 ， 以 及 足以 帮助 我 们 判断 特征 的 极 具 影响 力 的 新 闻 

事件 。 此 处 之 所 以 选择 成 交 量 而 不 是 收盘 价 作为 考查 对 象 , 是 因为 NMF 试图 寻找 的 特征 是 

可 以 相 加 在 一 起 的 正 数 , 价格 通常 会 受 事件 的 影响 而 向 下 走 , 而 NMF 找到 的 特征 是 不 会 为 

， 负 的 。 相 反 ， 成 交 量 更 容易 被 建 模 ， 因 为 它 有 一 个 可 以 受 外 部 影响 而 递增 的 基准 水 平 ， 这 
使 得 我 们 可 以 很 容易 地 根据 成 交 量 来 构造 出 正 数 矩阵 来 。 


从 Yahoo! Finance 下 载 数据 


Vi la ry Tata trani Vnhan!t Dlaans 
Veawnloaaing Data fram Yanoo! Finance 


Yahoo! Finance 是 一 个 汇集 了 各 种 财经 数据 的 绝 佳 资源 ， 它 包括 了 股票 价格 、 期 权 、 货 币 汇 
率 ， 以 及 债券 利率 。 而 且 它 还 允许 人 们 以 一 种 很 易于 处 理 的 CSV 格式 下 载 历史 股票 成 交 量 
和 价格 数据 。 通 过 访问 如 下 的 URL 地 址 :http;Wichart.finance.yahoo.com/table.csv?s=YHOO&d 
=11Ee=265 广 200658=d6a=35b=126c=19965rigrore=.csp, 我 们 可 以 下 载 到 一 个 以 逗号 分 隔 
的 文件 ， 其 中 包含 了 股票 的 一 组 每 日 数据 ， 文 件 的 开始 几 行 如 下 所 示 : 
交易 日 期 ， 开盘 价 , 最 高 价 ,最 低 价 , 收盘 价 , 成交 量 ， ”调整 后 的 收盘 价 * 
22-Dec-06,25.67,25.88,25.45,25.55,14666100,25.55 
21-Dec-06,25.71,25.75,25.13,25.48,27050600,25.48 
20-Dec-06,26.24,26.31,25.54,25.59,24905600,25.59 


19-Dec-06,26.05,26.50,25.91,26.41,18973800,26.41 
18-Dec-06,26.89,26.97,26.07, 26.30, 19431200, 26.30 
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数据 中 的 每 一 行 都 包含 了 交易 日 期 、 开 盘 价 和 收盘 价 、 最 高 价 和 最 低 价 、 成 交 量 ， 以 及 调 
整 后 的 收盘 价 。 调 整 后 的 收盘 价 考虑 了 股票 除权 或 除息 的 情况 ， 假 如 你 在 两 个 不 同 的 交易 
日 之 间 拥 有 这 支 股票 ， 那 么 我 们 就 可 以 利用 它 来 准确 计算 出 你 所 得 的 收益 。 


对 于 本 例 ， 我 们 将 会 得 到 一 组 股票 的 成 交 量 数据 。 请 新 建 一 个 名 为 stockvolume.py 的 文件 ， 
然后 将 下 列 代码 加 入 其 中 。 这 段 代 码 的 作用 是 ， 根 据 一 组 股票 代码 将 一 系列 以 逗号 分 隔 的 
文件 下 载 到 本 地 ， 并 将 其 放 入 一 个 字典 中 。 它 还 记 下 了 这 些 股票 中 拥有 交易 记录 的 最 小 交 
易 日 天 数 ， 以 此 作为 观测 矩阵 的 行 数 : 

import nmf 


import urllib2 
from numpy import * 


tickers=['YHOO', 'AVP', 'BIIB', ‘BP’, ‘CL’, 'CVX", 
'DNA', 'EXPE', 'GOOG', 'PG', 'XOM', 'AMGN'] 
shortest=300 


prices={} 
dates=None 


for t in tickers: 
# 打开 URL 
rows=urllib2.urlopen('http://ichart.finance.yahoo.com/table.csv?'+\ 
's=%séd=116e=266£=2006&q=déa=36b=126c=1996'St +\ 
*éignore=.csv') .readlines () 


E 从 每 一 行 中 提取 成 交 量 
prices[(t])=(float(r.split(',*')(5]) for r in rows[1:] if r.strip()!='"'] 
if len(prices[t])<shortest: shortest=len(prices[t]) 


if not dates: 
dates=[(r.split(',')[(0] for r in rows[(1:] if r.strip()!=''] 


上 述 代 码 针 对 每 支 股 票 打开 URL 并 下 载 数据 。 然 后 以 逗号 作为 分 隔 符 对 每 一 行 数据 进行 拆 
解 ， 并 从 中 取出 第 5 项 对 应 的 浮 点 值 ， 即 该 支 股票 的 成 交 量 ， 以 此 来 构造 列表 。 


Preparing 3 Matrix 


下 一 步 我 们 要 将 上 述 数据 转换 成 一 个 观测 矩阵 , 这 是 调用 NMF 函数 所 必需 的 。 为 此 我 们 只 
须要 构造 一 个 能 套 列表 即 可 ， 其 中 的 每 一 个 内 部 列表 代表 了 一 组 股票 的 每 日 总 成 交 量 。 例 
[[4453500.0, 842400.0, 1396100.0, 1883100.0, 1281900.0,...] 
[5000100.0, 1486900.0, 3317500.0, 2966700.0, 1941200.0,... 
[5222500.0, 1383100.0, 3421500.0, 2885300.0, 1994900.0,... 
{6028700.0, 1477000.0, 8178200.0, 2919600.0, 2061000.0,...] 
sae] 
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上 述 列表 表明 了 , 最 近 一 日 AMGN 的 交易 量 为 4453 500, AVP 的 交易 量 为 842 400, FF., 
而 在 前 一 日 ， 两 支 股票 的 交易 量 分 别 为 5000 100 和 1 486 900。 对 比 于 新 闻 故 事 的 例子 ; 原 
来 的 文章 现在 变 成 了 交易 日 ， 原 来 的 单词 现在 变 成 了 股票 份 数 ， 而 原来 的 单词 计数 现在 则 
变 成 了 交易 量 。 

利用 一 个 列表 推导 式 ， 可 以 很 容易 地 将 矩阵 构造 出 来 。 其 中 ， 内 层 循环 作用 于 股票 代码 ， 
而 外 层 循 环 则 作用 于 由 观测 数据 (天 ) 构成 的 列表 。 请 将 下 列 代码 添加 到 stockvolume.py 的 
末尾 处 ;: 


ll=[ [prices[ltickers[i]][j] 
for i in range (len (tickers))] 
for j in range (shortest) ] 


运行 NMF 
现在 ， 我 们 要 做 的 唯一 一 件 事 情 就 是 调用 nmf 模块 中 的 因 式 分 解 函 数 。 我 们 须要 指定 希望 


寻找 的 特征 数目 ， 对 于 为 数 不 多 的 几 支 股票 而 言 ， 特 征 数 取 4 或 5 可 能 就 差不多 了 。 
请 将 下 列 代 码 添加 到 stockvolume.py 的 末尾 处 : 


w,h= nmf.factorize(matrix(1ll),pce=5) 


print h 
print w 


现在 ， 可 以 在 命令 行 状 态 下 运行 上 述 代 码 ， 看 看 它 是 否 能 够 正确 执行 : 


$ Python stockvolume.py 


我 们 得 到 的 矩阵 分 别 对 应 于 权重 和 特征 。 特 征 和 矩阵 中 的 每 一 行 对 应 一 个 特征 ， 这 一 特征 代 
表 了 一 组 股票 的 成 交 量 ， 可 以 将 之 与 其 他 特征 相 结 合 ， 以 重新 构造 当日 的 交易 量 数 据 。 权 
重 矩 阵 中 的 每 一 行 对 应 一 个 具体 的 日 期 ,相应 的 数值 代表 了 每 个 特征 对 于 当日 的 贡献 程度 。 


结果 呈现 


很 显然 ， 要 直接 解释 上 述 矩 阵 是 有 难度 的 ， 因 此 我 们 须要 编写 代码 ， 以 更 好 的 方式 来 呈现 
这 些 特征 。 我 们 希望 看 到 的 是 每 一 个 特征 对 于 各 支 股 票 成 交 量 的 贡献 度 ， 以 及 与 这 些 特征 
关系 最 为 紧密 的 那 一 日 。 


请 将 下 列 代码 添加 到 stockvolume.py 的 末尾 处 : 
# 遍历 所 有 特征 


for i in range(shape(h)[0]): 
print "Feature %d" %i 
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# 得 到 最 符合 当前 特征 的 股票 
ol=[(h[i,j),tickers[j]) for j in range (shape (h) [1])] 


ol.sort () 

ol.reverse() 

for j in range(12): 
print ‘LEI 

print 


# 显示 最 符合 当前 特征 的 交易 日 期 
porder=[(w[d,i}],d) for d in range(300)]) 


porder.sort () 
porder.reverse() 


print [(p[0],dates[p[1]]) for p in porder[0:3)] 


print 


由 于 有 大 量 的 文本 产生 ， 因 此 将 结果 输出 到 一 个 文件 可 能 是 最 好 的 选择 了 。 请 在 命令 行 输 


入 如 下 命令 : 


$ python stockvolume.py > stockfeatures.txt 


文件 stockfeatures.txt 现在 包含 着 一 个 特征 列表 ， 其 中 还 包括 了 与 之 关系 最 为 紧密 的 股票 及 
交易 日 期 。 下 面 是 我 们 从 文件 中 摘 选 出 来 的 一 个 例子 ， 因 为 从 中 我 们 发 现 ， 有 一 支 股 票 在 
某 个 交易 日 显示 出 了 非常 高 的 权重 ;: 


特征 4 
(74524113.213559602, 
(6165711.6749675209, 
(5539688.0538382991, 
(2537144. 3952459987, 
(1283794.0604679288, 
(1160743.3352889531, 
(1040776. 8531969623, 
(811575.28223116993, 
(679243.76923785623, 
(377356.4897763988, 
(353682.37800343882, 
(0.31345784102699459, 


[ (7.950090052903934, 
(4.7278341805021329, 
(4.6049947721971245, 


"YHOO" ) 
*GOOG') 
*XOM") 
"CVX"') 
*PG') 
'BP') 
"AVP') 
*BIIB') 
'DNA') 


CL} 


'EXPE') 
'AMGN') 


'19-Jul-06"'), 
'19-Sep-06'), 
"18-Jan-06') ] 


从 数据 中 我 们 可 以 看 到 ， 此 处 的 特征 几乎 是 完全 针对 于 YHOO 和 的， 尤其 是 2006 年 7 月 19 
日 。 碰 巧 那 一 天 Yahoo! 的 交易 量 出 现 了 大 幅 地 变动 (a massive spike) ， 当 天 也 是 Yahoo! 公 
布 业绩 预报 (earnings guidance) 的 日 子 。 


另 有 一 个 特征 则 同时 对 两 家 公司 都 产生 了 相同 的 影响 ， 如 下 所 示 ， 


特征 2 

(46151801.813632453, 
(24298994.720555616, 
(10606419.91092159, 
(7711296.6887903402, 
(4711899.0067871698, 


"GOOG") 
"YHOO') 


'PG') 


"CVX') 
"TY 
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(4423180.7694432881, 'XOM')} 
(3430492.5096612777, 'DNA') 
(2882726.8877627672, 'EXPE') 
(2232928.7181202639, 'CL') 

(2043732.4392455407, 'AVP') 
(1934010.2697886101, 'BP') 

(1801256.8664912341, 'AMGN') 


[(2.9757765047938824, '20-Jan-06"'), 
(2.8627791325829448, '28-Feb-06'), 
(2.356157903021133, '31-Mar-06'), 


此 处 的 特征 表明 ，Google 的 交易 量 出 现 了 大 幅 的 变动 ， 排 在 最 前 面 的 3 组 数据 与 当日 的 新 
闻 事 件 有 关 。 权 重 值 最 大 的 一 天 , 即 1 月 20 日 ，Google 对 外 宣布 了 不 会 将 搜索 引擎 的 使 用 
信息 提交 给 政府 。 这 一 特征 真正 引 人 注 目的 地 方 在 于 ， 影 响 Google 交易 量 的 事件 似乎 对 
Yahoo! 的 交易 量 也 有 很 大 的 贡献 ， 即 使 这 与 Yahoo! 并 没有 什么 关系 。 上 述 列表 中 的 第 二 个 
交易 日 呈现 出 交易 量 的 大 幅 变动 ， 这 一 情况 出 现在 Google 首席 财务 官 宣布 公司 增长 速度 正 
在 放 缓 的 时 候 。 图 表 显 示 ，Yahoo! 当 天 的 交易 量 也 有 相应 的 增长 ， 这 有 可 能 是 因为 ， 人 们 
认为 这 一 消息 也 会 影 啊 到 Yahoo!。 


我 们 在 此 处 所 得 到 的 信息 与 仅仅 找 出 股票 交易 量 之 间 的 相关 性 有 着 很 大 的 不 同 ， 明 白 这 一 
点 是 很 重要 的 。 上 述 两 个 特征 表明 了 ， 在 某 一 段 时 期 ，Google 和 Yahoo! 的 股票 交易 量 会 呈 
现 出 相似 的 模式 (pattems), 而 在 其 他 时 候 , 两 支 股票 的 走势 则 完全 不 同 。 仅仅 考虑 相关 性 ， 
会 将 所 有 这 些 关 系 都 “ 抹 平 ” 掉 ,同时 又 无 法 “抹杀 ”这 样 一 个 事实 : 仅仅 只 有 几 天 Yahoo! 
就 发 布 了 对 外 通告 ， 称 其 受到 了 较 大 的 影响 。 


上 述 这 个 例子 只 利用 少数 几 支 股票 就 揭示 出 了 这 样 一 个 简单 的 道理 ， 而 如 果 我 们 选择 更 多 
的 股票 ， 并 寻找 更 多 的 模式 ， 那 将 会 揭示 出 各 种 股票 之 间 更 为 复杂 的 相互 影响 关系 来 。 


1. 改变 新 闻 来 源 ”本章 例子 里 所 选用 的 主要 都 是 纯 新 闻 来 源 。 请 尝试 添加 一 些 排名 靠 前 的 
政论 性 博客 (http//technorati.com 是 寻找 博客 的 一 个 好 去 处 )。 这 样 做 对 结果 会 有 怎样 的 
影响 ? 是 否 存 在 对 政治 评论 有 显著 影响 的 特征 呢 ?” 是 否 可 以 将 新 闻 故 事 和 相关 的 评论 很 
容易 地 分 在 一 组 昵 ? 


2. 均值 聚 类 ”本章 我 们 将 分 级 聚 类 算法 用 于 了 文章 矩阵 , 如 果 我 们 使 用 K 均值 聚 类 算法 ， 
情况 又 会 怎样 呢 ? 我 们 究竟 须要 多 少 个 聚 类 才能 有 效 地 划分 各 个 不 同 的 故事 ? 如 何 将 这 
一 结果 与 提取 所 有 主题 所 需 的 特征 数 进行 比较 呢 ? 
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3. 优化 因 式 分 解 ” 我 们 能 否 将 第 5 章 中 实现 优化 功能 的 代码 用 于 对 矩阵 的 因 式 分 解 呢 ? 这 
样 做 会 使 因 式 分 解 的 执行 速度 变 得 更 快 还 是 更 慢 呢 ? 如 何 对 结果 进行 比较 ? 


4, 终止 条 件 “本章 中 的 NMF 算法 在 成 本 值 降 为 0 或 迭代 次 数 达到 最 大 值 时 就 会 终止 执行 。 
有 时 ， 当 我 们 找到 了 一 个 较为 满意 但 还 不 是 最 理想 的 题解 时 ， 成 本 值 就 几乎 不 会 再 有 任 
何 改 变 了 。 请 修改 代码 ， 当 成 本 值 在 每 次 迭代 中 的 变化 量 不 超过 1% 时 ,就 终止 算法 的 执 
行 。 


5. 其 他 的 结果 星 现 方法 ”本章 给 出 的 结果 呈现 函数 只 是 列 出 了 最 为 重要 的 特征 ， 但 它们 却 
丢失 了 很 多 上 下 文 信息 。 你 能 够 想到 其 他 的 结果 呈现 方式 吗 ? 请 尝试 编写 一 个 函数 列 出 
文章 的 原始 正文 及 根据 各 关键 特征 得 到 的 关键 词 ， 或 者 编写 函数 在 成 交 量 走势 图 中 清晰 
地 标注 出 关键 的 交易 日 。 
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Evolving Intelligence 





通 观 本 书 ， 我 们 已 经 遇见 过 许多 不 同 的 问题 ， 而 且 在 面 对 每 一 个 问题 时 ， 都 采用 了 一 种 最 
适合 于 解决 该 问题 的 算法 。 在 某 些 例子 中 ， 我 们 还 须要 对 参数 进行 调整 ， 或 者 借助 于 优化 
手段 来 找 出 一 个 满意 的 参数 集 来 。 本 章 将 考查 一 种 截然 不 同 的 问题 解决 方法 。 与 先前 遇 到 
一 个 问题 就 选择 一 种 算法 的 思路 不 同 ， 我 们 将 编写 一 个 程序 ， 尝 试 自动 构造 出 解决 某 一 问 
题 的 最 佳 程序 来 。 因 而 从 本 质 上 看 ， 我 们 即将 要 构造 的 是 一 个 能 够 构造 算法 的 算法 。 


为 了 做 到 这 一 点 ， 我 们 将 采用 一 种 称 为 遗传 编程 (genetie programming) 的 技术 。 因 为 本 章 
是 我 们 学 习 新 算法 的 最 后 一 六 网 请 能 考 在 此 处 选择 了 一 个 疡 新 的 议题 ， 一 个 激动 人 心 的 、 
前 仍旧 处 于 研究 当中 的 议 二 其 他 章节 有 稍 许 的 不 同 这 是 因为 我 们 将 不 再 使 用 
任何 开放 的 API RAHM, . 同时 也 是 因 筋 SS 能 够 根据 与 大 量 人 群 的 交互 对 自身 作出 
ERRE, EE AN ae 传 编程 是 一 个 非常 大 的 议题 ， 
已 经 有 大 量 与 此 有 关 的 书籍 at 但 是 笔者 希望 它 能 引起 大 
家 的 兴趣 ， pepe t 


本 章 涉及 两 个 问题 ， 分 别 厂 久 Waite eh on on Cee er 
ash AER- ALEE) TOM TE FRE Dt — ME st 
aay TES A fea BN ee JHE — 


Wop 


What Is Ge f 


遗传 编程 是 受到 生 




















二 


oe 
>> —— 


的 工作 方式 是 


ys “Son 
Š < 


以 一 大 堆 程 序 (被 可 以 是 人 为 设计 的 
(hand-designed) , 2o K, donowa):. 随后 ， 这 
些 程序 将 会 在 一 个 由 。 此 处 所 谓 的 任务 或 许 
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是 一 种 竞赛 (game), 各 个 程序 在 竞赛 中 彼此 直接 展开 竞争 , 或 者 也 有 可 能 是 一 种 个 体 测试 ， 
其 目的 是 要 测 出 哪个 程序 的 执行 效果 更 好 。 待 竞争 结束 之 后 ， 我 们 会 得 到 一 个 针对 所 有 程 
序 的 评价 列表 ， 该 列表 按 程 序 的 表现 成 绩 从 最 好 到 最 差 顺 次 排列 。 


接 下 来 一 一 也 正 是 进化 得 以 体现 的 地 方 一 一 算法 可 以 采取 两 种 不 同 的 方式 对 表现 最 好 的 程 
序 实施 复制 和 修改 。 比 较 简 单 的 一 种 方式 称 为 变异 (mnutation) ， 算 法 会 对 程序 的 某 些 部 分 
以 随机 的 方式 稍 作 修改 ， 希 望 借 此 能 够 产生 一 个 更 好 的 题解 来 。 另 一 种 修改 程序 的 方式 称 
为 交叉 (crossover) ， 有 时 也 称 为 配对 (breeding)， 其 做 法 是 : 先 将 某 个 最 优 程序 的 一 部 分 
去 掉 ， 然 后 再 选择 其 他 最 优 程序 的 某 一 部 分 来 替代 之 。 这 样 的 复制 和 修改 过 程 会 产生 出 许 
多 新 的 程序 来 ， 这 些 程序 基于 原来 的 最 优 程序 ， 但 又 不 同 于 它们 。 


在 每 一 个 复制 和 修改 的 阶段 ， 算 法 都 会 借助 于 一 个 适当 的 函数 对 程序 的 质量 作出 评估 。 因 
为 种 群 的 大 小 始终 是 保持 不 变 的 ， 所 以 许多 表现 极 差 的 程序 都 会 从 种 群 中 被 剔除 出 去 ， 从 
而 为 新 的 程序 腾 出 空间 。 新 的 种 群 被 称 为 “下 一 代 … 而 整个 过 程 则 会 一 直 不 断 地 重复 下 去 。 
因为 最 优秀 的 程序 一 直 被 保留 了 下 来 ， 而 且 算 法 又 是 在 此 基础 上 进行 复制 和 修改 的 ， 所 以 
我 们 有 理由 相信 ， 每 一 代 的 表现 都 会 比 前 一 代 更 加 出 色 ， 这 在 很 大 程度 上 有 点 类 似 于 人 类 
世界 中 ， 年 轻 一 代 比 他 们 的 父辈 更 聪明 。 


创建 新 一 代 的 过 程 直到 终止 条 件 满 足 才 会 结束 ， 具 体 问题 的 不 同 ， 可 能 的 终止 条 件 也 不 同 。 
。 ”找到 了 最 优 解 。 

。 ”找到 了 表现 足够 好 的 解 。 

。 ”题解 在 历经 数 代 之 后 都 没有 得 到 任何 改善 。 

。 ”繁衍 的 代数 达到 了 规定 的 限制 。 


对 于 某 些 问题 而 言 一 一 比如 确定 一 个 数学 函数 ， 令 其 将 一 组 输入 正确 地 映射 到 某 个 输出 一 
一 要 找到 最 优 解 是 有 可 能 的 。 但 是 对 于 其 他 问题 一 一 比如 棋 类 游戏 一 一 也 许 根本 就 不 存在 
最 优 解 ， 这 是 因为 题解 的 质量 依赖 于 程序 的 对 抗 者 所 采取 的 策略 。 


下 页 图 11-1 以 流程 图 的 形式 给 出 了 遗传 编程 算法 执行 的 一 个 大 体 过 程 。 


遗传 编程 与 遗传 算法 

Genetic Programming. Versus Genetic Algorithms 

我 们 在 第 5 章 曾 经 介绍 过 一 组 相关 算法 ， 被 称 为 遗传 算法 (genetic algorithms)。 遗 传 算法 
是 一 种 优化 技术 ， 它 汲取 了 生物 进化 中 优胜 劣 汰 的 思想 。 就 优化 技术 而 言 ， 不 论 是 何 种 形 


式 的 优化 ， 算 法 或 度量 都 是 事先 选择 好 了 的 ， 而 我 们 所 要 做 的 工作 只 是 尝试 为 其 找到 最 佳 
参数 。 
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:名 | 对 每 个 解 逐 一 进行 排序 





图 11-1: 遗传 编程 的 大 体 执 行 过 程 


遗传 编程 的 成 功 之 处 


遗传 编程 自 20 世纪 80 年 代 以 来 就 一 直 存 在 着 ， 但 是 它 的 计算 量 非常 让 大 ， 而 且 以 那个 
时 候 可 以 获得 的 计算 能 力 而 言 ， 人 们 是 不 可 能 将 其 用 于 稍 复 杂 一 些 的 问题 的 。 然 而， 随 
着 计算 机 的 执行 速度 越 来 越 快 ， 人 们 已 经 逐渐 能 圳 将 遗传 编 程 应 用 到 复杂 问题 上 了 。 正 
因为 如 此 ， 许 多 以 前 的 专利 发 明 ， 人 借助 遗传 编程 得 到 了 再 次 挖 握 和 进一步 的 改 普 ， 而 近 


年 来 也 有 不 少 可 以 获得 专利 的 新 发 明 ， 都 是 备 助 计算 机 利用 遗传 编程 设计 出 来 的 。 


人 们 已 经 将 遗传 编程 技术 广泛 应 用 于 许多 领域 , 比如 NASA 的 天 线 设 计 、 光 子 晶 体 领域 、 
光学 领域 、 量 子 计 算 系 统 ， 以 及 其 他 科学 发 明 领 域 。 遗 传 编 程 也 被 应 用 于 许多 竞技 类 游 
戏 程 序 的 开发 上 ， 比 如 : 国际 象棋 和 西洋 双 陆 棋 。1998 年 ， 来 自 卡 耐 基 梅 隆 大 学 的 研究 
者 率领 一 支 机 器 人 队伍 闻 入 了 RoboCup 机 器 人 世界 杯赛 ,并 且 在 众多 参赛 者 中 排名 居中 ， 
这 支队 伍 就 是 完全 利用 遗传 编程 技术 打造 的 。 





和 优化 算法 一 样 ， 遗 传 编程 也 需要 一 种 方法 来 度量 题解 的 优 劣 程度 ， 但 与 优化 算法 不 同 的 
是 ， 此 处 的 题解 并 不 仅仅 是 一 组 用 于 给 定 算法 的 参数 而 已 。 相 反 ， 在 遗传 编程 中 ， 连 同 算 
法 本 身 及 其 所 有 的 参数 ， 都 是 按照 优胜 劣 沐 的 进化 规律 (evolutionary pressure) 自动 设计 得 
到 的 。 
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将 程序 以 树 形 方式 表示 


r> ry AP 一 A g A ` E “~~ 
wt SF ry Ee 4 OC 
| POOL Alyy } AS LOGS 
< 


为 了 构造 出 能 够 用 以 测试 、 变 异 和 配对 的 程序 ， 我 们 需要 一 种 方法 能 够 在 Python 代码 中 描 
述 和 运行 这 些 程 序 。 这 种 描述 方法 自身 必须 是 易于 修改 的 ， 而 且 更 重要 的 一 点 是 ， 它 必须 
保证 所 描述 的 是 一 个 实 实在 在 的 程序 一 一 这 意味 着 ， 试 图 将 随机 生成 的 字符 串 作 为 Python 
代码 的 做 法 是 行 不 通 的 。 为 了 描述 遗传 编程 中 的 程序 ， 研 究 者 已 经 提出 了 各 种 不 同 的 方法 ， 
而 这 其 中 应 用 最 为 普遍 的 是 树 形 表示 法 。 


大 多 数 编程 语言 ， 在 编译 或 解释 时 ， 首 先 都 会 被 转换 成 一 棵 解析 树 ， 这 棵 树 非常 类 似 于 此 
处 我 们 将 要 用 到 的 树 。(Lisp 编程 语言 及 其 变 体 ， 本 质 上 就 是 一 种 直接 访问 解析 树 的 方法 )。 
图 11-2 给 出 了 一 个 解析 树 的 例子 。 





图 11-2:“ 程 序 ” 树 的 例子 


” 树 上 的 节点 有 可 能 是 枝 和 节点， 代表 了 应 用 于 其 子 节点 之 上 的 某 一 项 操作 ， 也 有 可 能 是 叶 节 
点 ,比如 一 个 带 常 量 值 的 参数 。 例 如 ， 图 上 的 圆 形 节点 代表 了 应 用 于 两 个 分 支 (本 例 中 为 Y 
值 和 5) 之 上 的 求 和 操作 。 一旦 我 们 求 出 了 此 处 的 计算 值 ， 就 会 将 计算 结果 赋予 上 方 的 节点 
处 ， 相 应 地 ， 这 一 计算 过 程 会 一 直 向 下 传播 。 同 时 你 还 会 注意 到 ， 树 上 有 一 个 节点 的 操作 
A “P, ARR: 如 果 该 节点 左 侧 分 支 的 计算 结果 为 真 ， 则 它 将 返回 中 间 的 分 支 ， 如 果 不 
为 真 ， 则 返回 右 侧 的 分 支 。 

对 整 棵 树 进行 遍历 ， 你 就 会 发 现 它 相当 于 下 面 这 个 Python 函数 : 

def func(x,y) 
it S23: 
return y + 5 


else: 
return y - 2 


乍 看 起 来 ， 这 样 的 树 似乎 只 能 用 来 构造 非常 简单 的 函数 。 不 过 ， 此 处 我 们 有 两 点 须要 考虑 
一 一 第 一 ， 构 成 这 棵 树 的 节点 可 以 是 非常 复杂 的 函数 ， 比 如 距离 度量 或 高 斯 分 布 。 第 二 ， 
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通过 引用 树 上 位 置 相对 较 高 的 节点 ， 我 们 可 以 用 递归 的 方式 来 构造 树 。 采 用 这 样 的 方式 来 
构造 树 可 以 实现 循环 及 其 他 更 为 复杂 的 控制 结构 。 


在 Python 中 表现 树 


Representing Trees in Python 


现在 ， 我 们 可 以 开始 在 Python 中 构造 “ 树 状 程序 (tree programs)” 了 。 这 标 树 是 由 若干 节 
点 组 成 的 ， 根 据 与 之 关联 的 函数 的 不 同 ， 这 些 节点 又 可 以 拥有 一 定数 量 的 子 节 点 。 有 些 节 
点 将 会 返回 传递 给 程序 的 参数 ， 另 一 些 节 点 则 会 返回 常量 ， 而 那些 最 值得 关注 的 节点 则 会 
返回 应 用 于 其 子 节点 之 上 的 操作 。 


请 新 建 一 个 名 为 gp.py 的 文件 , 并 新 建 4 个 类 : fwrapper, node, paramnode 和 constnode; 


from random import random, randint, choice 
from copy import deepcopy 
from math import log 


class fwrapper: 
def jinit _ (self, function, childcount, name): 
self.function=function 
self.childcount=childcount 
self.name=name 


class node: 
def init _(self,fw,children): 
self.function=fw. function 
self.name=fw.name 
self.children=children 


def evaluate(self,inp): 
results=[n.evaluate(inp) for n in self.children] 
return self.function(results) 


class paramnode: 
def init. _{(self,idx): 
self.idx=idx 


def evaluate (self, inp): 
return inp[self.idx) 


class constnode: 
def init _ _(self,v): 
self.v=v 
def evaluate(self,inp): 
return self.v 
The classes here are: 
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下 面 是 这 些 类 的 说 明 。 

fwrapper 
一 个 封装 类 ， 对 应 于 “函数 型 ”节点 上 的 函数 。 其 成 员 变 量 包括 了 函数 名 称 、 函 数 本 
身 ， 以 及 该 函数 接受 的 参数 个 数 。 

node 
对 应 于 函数 型 节点 ( 即 带子 节点 的 节点 )。 我 们 以 一 个 twrapper 类 对 其 进行 初始 化 。 
当 evaluate 被 调用 时 ， 我 们 会 对 各 个 子 节点 进行 求 值 运算 ， 然 后 再 将 函数 本 身 应 用 
于 求 得 的 结果 。 

paramnode 
这 个 类 对 应 的 节点 只 返回 传递 给 程序 的 某 个 参数 。 其 evaluate 方法 返回 的 是 由 idx 
指定 的 参数 。 

constnode 


返回 常量 值 的 节点 。 其 evaluate 方法 仅 返 回 该 类 被 初始 化 时 所 传 入 的 值 。 


此 外 ， 我 们 还 会 用 到 一 些 针 对 节点 的 操作 函数 。 为 此 ， 须 要 构造 一 组 函数 ， 然 后 利用 
fwrapper 类 赋予 它们 名 称 和 参数 个 数 。 请 将 下 列 函 数列 表 添 加 到 gp.py 中 : 
addw=fwrapper (lambda 1:1[0]+1[1],2,'add') 


subw=fwrapper (lambda 1:1([0)-1[1],2, 'subtract') 
mulw=fwrapper (lambda 1:1[0)*1[1],2, multiply’) 


def iffunc (l): 
if 1[0]>0: return 1[1] 
else: return 1[2] 
ifw=fwrapper (iffunc,3,'‘if') 
def isgreater(l): 
if 1{0)>l[1l]): return 1 
else: return 0 
gtw=fwrapper (isgreater,2, 'isgreater') 


flist=[addw,mulw, ifw, gtw, subw] 


一 些 较 为 简单 的 函数 ， 比 如 ada 和 subtract， 可 以 利用 lambda 以 内 联 方 式 来 定义 ; 而 其 
他 函数 则 要 求 我 们 必须 在 一 个 单独 的 语法 块 中 进行 定义 。 不 论 是 哪 种 情况 ， 它 们 都 会 被 封 
装 在 一 个 fwrapper BH, 并 附 以 函数 名 称 和 要 求 的 参数 个 数 。 最 后 一 行 创建 了 一 个 包含 所 
有 函数 的 列表 ， 这 样 我 们 就 可 以 在 稍 后 对 它们 进行 随机 选择 了 。 


树 的 构造 和 评估 


Building and Evaluating Trees 


现在 ， 我 们 可 以 利用 刚刚 创建 的 节点 类 来 构造 如 图 11-2 所 示 的 程序 树 了 。 为 此 ， 请 将 
exampletree 添加 到 gp.py 中 : 
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def exampletree(): 
return node (ifw, [ 
node (gtw, [paramnode (0), constnode (3) ] ) ， 
node (addw, [paramnode (1) ,constnode(5)]), 
node (subw, [paramnode (1) ,constnode(2)]), 
] 
) 


请 启动 一 个 Python 会 话 来 测试 我 们 的 程序 : 


>>> import gp 

>>> exampletree=gp.exampletree () 
>>> exampletree.evaluate([2,3]) 
1 

>>> exampletree.evaluate([5,3]) 
8 


上 述 程序 成 功 地 完成 了 与 前 面 的 代码 块 完全 相同 的 功能 。 至 此 ， 我 们 已 经 成 功 地 在 Python 
中 构造 出 了 一 个 以 树 为 基础 的 迷你 语言 和 解释 器 。 通 过 加 入 更 多 的 节点 类 型 ， 我 们 可 以 很 
方便 地 对 这 种 语言 进行 扩展 ， 同 时 它 也 是 理解 本 章 遗 传 编程 概念 的 基础 。 为 了 确保 你 理解 
了 程序 树 的 工作 原理 ， 请 尝试 再 构造 一 些 简单 的 程序 树 。 


程序 的 展现 


Displaying the Program 
d | 


因为 程序 树 是 自动 构造 而 成 的 ， 我 们 对 树 的 结构 一 无 所 知 。 所 以 寻找 一 种 程序 树 的 展现 方 
法 ， 从 而 使 我 们 能 够 很 容易 地 对 其 加 以 解释 是 很 重要 的 。 幸 运 的 是 ， 节 点 类 的 设计 考虑 了 
这 一 点 : 每 个 节点 都 带 有 一 个 描述 函数 名 称 的 字符 串 ， 因 此 一 个 display 函数 只 须 返 回 该 
字符 串 及 其 子 节点 的 显示 字符 串 就 可 以 了 。 为 了 使 之 更 易于 阅读 ，display 函数 还 应 该 将 
子 节点 缩 进 ， 这 样 我 们 一 眼 就 可 以 辨别 出 树 中 的 父子 关系 了 。 
请 在 node 类 中 新 建 一 个 名 为 display 的 方法 ,其 功能 就 是 显示 出 整 棵 树 的 字符 串 表 示 形 式 : 
def display(self,indent=0): 
print (" '*indent) +self.name 


for c in self.children: 
c.display (indent+1) 


我 们 还 须要 为 paramnode 类 新 建 一 个 display 方法， 其 功能 很 简单 ， 只 须 打印 出 该 节点 返 
回 参数 的 对 应 索引 即 可 : 


def display(self,indent=0): 
print '%t%sp%d' % (' '*indent, self.idx) 


最 后 是 constnode 类 的 display FH: 


def display(self, indent=0): 
print ‘tstd' $ (' '*indent,self.v) 
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请 利用 上 述 方法 打印 出 整 棵 树 : 


>>> reload {gp) 

<module 'gp' from 'gp.py'> 

>>> exampletree=gp.exampletree () 
>>> exampletree.display () 

if 

isgreater 


subtract 

pl 

2 
如 果 你 已 经 读 过 了 第 7 章 ， 就 会 注意 到 此 处 所 用 的 方法 与 那 一 章 中 决策 树 的 显示 方法 非常 
的 类 似 。 为 了 获得 更 加 清晰 ， 更 易于 阅读 的 输出 效果 ， 第 7 章 还 给 出 了 一 种 树 的 图 形 化 显 
示 方 法 。 如 果 愿 意 的 话 ， 我 们 也 可 以 采用 同样 的 方法 为 树 状 程序 提供 一 种 图 形 化 的 表达 形 
式 。 


构造 初始 种 群 


Creating the Initial Population 


尽管 为 遗传 编程 手工 构造 程序 是 可 行 的 , 但 是 通常 的 初始 种 群 都 是 由 一 组 随机 程序 构成 的 。 
这 样 做 可 以 使 我 们 的 起 点 变 得 更 低 ， 因 为 我 们 设 有 必要 去 设计 一 组 几乎 已 经 将 问题 完全 解 
决 了 的 程序 。 而 且 ， 这 样 做 还 可 以 在 初始 种 群 中 引入 更 加 丰富 的 多 样 性 一 一 由 某 位 编程 人 
员 为 了 解决 特定 问题 而 专门 设计 的 一 组 程序 ， 彼 此 间 很 可 能 会 非常 相似 ， 尽 管 这 些 程序 也 
许 会 给 出 几乎 正确 的 答案 ， 但 是 最 终 的 理想 题解 很 有 可 能 会 截然 不 同 。 很 快 ， 我 们 就 会 了 
解 到 更 多 有 关 多 样 性 重要 价值 的 知识 。 


创建 一 个 随机 程序 的 步 又 包括 : 创建 根 结 点 并 为 其 随机 指定 一 个 关联 函数 ， 然 后 再 随机 创 
建 尽 可 能 多 的 子 节点 ， 相 应 地 ， 这 些 子 节点 也 可 能 会 有 它们 自己 的 随机 关联 子 节 点 。 和 大 
多 数 对 树 进 行 操作 的 函数 一 样 ， 这 一 过 程 很 容易 以 递归 的 形式 进行 定义 。 请 将 新 函数 
makerandomtree 添加 到 gp.py 中 


def makerandomtree {pc,maxdepth=4, fpr=0.5,ppr=0.6): 
if random()<fpr and maxdepth>0: 
f=choice (flist) 
children=([makerandomt ree (pc, maxdepth-1, fpr, ppr) 
for i in range(f.childcount) ] 
return node(f,children) 
elif random()<ppr: 
return paramnode (randint (0,pe-1) ) 
else: 
return constnode(randint (0,10) ) 
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该 函数 首先 创建 了 一 个 节点 并 为 其 随机 选择 了 一 个 函数 ， 然 后 它 查看 了 随机 选中 的 函数 所 
需 的 子 节点 数 。 针 对 每 一 个 子 节点 ， 函 数 通 过 调用 自身 来 创建 新 的 节点 。 通 过 这 样 的 方式 ， 
一 棵 完整 的 树 就 被 构造 出 来 了 ， 仅 当 被 随机 选中 的 函数 不 再 要 求 新 的 子 节点 时 〈 即 ， 如 果 
函数 返回 的 是 一 个 常量 或 输入 参数 时 ) ， 向 下 创建 分 支 的 过 程 才 会 结束 。 此 处 的 参数 pc 是 
我 们 在 本 章 中 将 会 一 直 使 用 的 参数 ， 它 给 出 了 程序 树 所 需 输入 参数 的 个 数 。 参 数 fpr 给 出 
了 新 建 节点 属于 函数 型 节点 的 概率 ， 而 ppr 则 给 出 了 当 新 建 节点 不 是 函数 型 节点 时 ， 其 属 
于 paramnode 节点 的 概率 。 


请 在 你 的 Python 会 话 中 尝试 执行 上 述 函 数 ， 构 造 一 组 程序 ， 然 后 看 一 看 采用 不 同 的 变量 值 
会 得 到 什么 样 的 结果 : 


>>> randoml=gp.makerandomtree (2) 
>>> randoml.evaluate([7,1]) 


>>> randoml.evaluate ([2,4]) 


>>> random2=gp.makerandomtree (2) 
>>> random2.evaluate([5,3]) 


>>> random2.evaluate([5,20]) 


如 果 一 个 程序 的 所 有 叶 节 点 都 是 常量 ， 则 该 程序 实际 上 根本 不 会 接受 任何 形式 的 输入 参数 ， 
因此 无 论 我 们 传 给 它 什么 样 的 输入 ， 其 结果 都 是 一 样 的 。 我 们 可 以 利用 前 面 定 义 好 的 函数 
来 显示 此 处 随机 生成 的 这 棵 树 : 
>>> randoml .display () 
0 
om random2 .display () 
subtract 
7 
multiply 
isgreater 
po 


我 们 会 发 现 ， 有 时 生成 的 树 会 非常 深 , 这 是 因为 每 个 分 支 都 会 一 直 不 断 地 增长 下 去 ， 直 到 
它 遇 到 一 个 没有 任何 子 节 点 的 节点 为 止 。 这 就 是 为 什么 增加 一 个 最 大 深度 的 约束 条 件 尤 为 
重要 的 原因 ， 否 则 ， 树 就 有 可 能 会 变 得 非常 庞大 ， 并 且 有 可 能 会 导致 堆栈 溢出 。 
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测试 题解 

resting a Seluuon 

如 果 我 们 可 以 持续 不 断 地 产生 随机 程序 ， 直 至 找到 一 个 正确 解 为 止 ， 那 么 现在 我 们 就 已 经 
具备 了 自动 构造 程序 所 需 的 所 有 条 件 了 。 但 是 很 显然 ， 这 样 做 是 荒 订 而 不 切实 际 的 ， 因 为 
生成 的 程序 有 无 穷 多 种 可 能 ， 并 且 在 任何 一 个 合理 的 时 间 范 围 内 ， 碰 巧遇 到 一 个 正确 解 几 


乎 是 不 可 能 的 事情 。 不 过 在 此 处 ， 我 们 寻找 测试 题解 正确 与 否 的 方法 还 是 有 必要 的 ， 如 果 
题解 不 正确 ， 我 们 还 可 以 确 知 它 与 正确 答案 的 差距 。 


一 个 简单 的 数学 测试 

A Simple Mathematica: Tesi 
测试 遗传 编程 算法 的 一 个 最 为 简单 的 例子 ， 是 尝试 重新 构造 一 个 简单 的 数学 函数 。 假 设 我 
们 有 一 张 包含 输入 和 输出 的 表 ， 如 表 11-1 所 示 。 

表 11-1: ea 





2 n ir 
: a Jm 
2 i 


的 确 存 在 一 些 函 数 可 以 将 X AY 上 映射 到 上 述 输出 结果 一 栏 ， 但 是 没有 人 告诉 我 们 这 个 函数 
到 底 是 什么 。 统 计 学 家 看 到 上 述 表格 也 许 会 尝试 做 一 个 回归 分 析 ， 但 是 这 样 做 要 求 我 们 首 
先 要 推测 出 公式 的 结构 。 另 一 种 选择 是 利用 第 8 章 中 介绍 过 的 k- 最 近邻 技术 来 构造 一 个 预 
测 模型 ， 但 是 那样 做 我 们 就 得 保留 所 有 的 数据 。 有 时， 我 们 需要 的 仅仅 是 一 个 公式 而 已 ， 
或 许 我 们 会 将 其 编 人 另 一 个 更 为 简单 的 程序 中 ， 又 或 者 我 们 是 为 了 向 他 人 解释 正在 发 生 的 
情况 。 


相信 读者 一 定 很 想 知道 这 个 公式 到 底 是 什么 ， 下 面 笔 者 就 来 为 大 家 揭 开 谜底 。 请 将 
hiddenfunction 加 入 gp.py 中 : 


def hiddenfunction (x,y): 
return x**24+2*y+3*x+5 


我 们 将 利用 上 述 函 数 来 构造 一 个 数据 集 ， 借 助 得 到 的 数据 集 ， 我 们 可 以 开始 对 生成 的 程序 
进行 测试 了 。 请 新 加 一 个 函数 ，buildhiddenset， 用 以 构造 数据 集 : 


def buildhidadenset(): 
rows=[] 
for i in range(200): 
x=randint (0,40) 
y=randint (0,40) 
rows.append([x, y, hiddenfunction (x, y) ]) 
return rows 
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请 在 你 的 Python 会 话 中 利用 上 述 函 数 来 创建 一 个 数据 集 : 


>>> reload (gp) 

<module 'gp' from 'gp.py'> 

>>> hiddenset=gp .buildhiddenset () 
我 们 当然 知道 用 来 生成 上 述 数 据 集 的 函数 到 底 是 什么 ， 但 是 此 处 真正 要 测试 的 ， 是 遗传 纺 
程 是 否 能 够 在 不 知情 的 前 提 下 重新 构造 出 这 一 函数 来 。 


衡量 程序 的 好 坏 


Measuring Success 


与 优化 技术 一 样 ， 此 处 必须 要 找到 一 种 衡量 题解 优 劣 程度 的 方法 。 在 本 例 中 ， 我 们 是 在 一 
个 数值 型 结果 的 基础 上 对 程序 进行 测试 ， 因 此 一 个 简单 的 测试 办 法 ， 是 看 这 个 程序 与 代表 
正确 答案 的 数据 集 之 间 的 接近 程度 。 请 将 scorefunction 加 入 gp.py P: 
def scorefunction(tree,s): 
dif=0 
for data in s: 
v=tree.evaluate([data[0],data[1]]) 
dif+=abs (v-data[2])} 
return dif 
38 eH ER AE RE, AMER, FOS SE RET EL 
较 。 范 数 将 所 有 差 值 累加 起 来 ， 题 解 的 表现 越 好 ， 累 加 得 到 的 值 就 越 小 一 一 累加 值 为 0 则 
表示 该 程序 得 到 的 每 一 项 结果 都 是 正确 的 。 现 在 ， 我 们 可 以 开始 在 自己 的 Python 会 话 中 对 
自动 生成 的 程序 进行 测试 了。 我 们 来 看 一 看 它们 的 累加 结果 : 


>>> Feload(gP) 

<module 'gp' from 'gp.py'> 

>>> gp.scorefunction (random2 ,hiddenset) 
137646 

>>> gp.scorefunction (random1 , hiddenset) 
125489 


由 于 我 们 只 生成 了 一 小 部 分 程序 ， 而 且 完 全 是 随机 产生 的 ， 因 此 这 其 中 存在 正确 解 的 概率 
是 非常 小 的 。{( 假 如 你 的 程序 中 恰好 有 一 个 是 正确 答案 ， 那 么 笔者 建议 你 放下 书本 ， 去 买 彩 


mO) 不 过 , 在 这 个 预测 数学 函数 的 例子 中 , 我 们 现在 已 经 有 办 法 能 够 测试 出 程序 表现 的 优 
劣 来 了 ， 这 对 于 决定 哪些 程序 将 进入 下 一 代 是 至 关 重 要 的 。 


“对 程序 进行 变异 

Mutating Programs 

当 表现 最 好 的 程序 被 选 定之 后 ， 它 们 就 会 被 复制 并 修改 以 进入 到 下 一 代 。 如 前 所 述 ， 变 异 
的 做 法 是 对 某 个 程序 进行 少许 的 修改 。 一 个 树 状 程序 可 以 有 多 种 修改 方式 一 一 我 们 可 以 改 


变节 点 上 的 函数 ， 也 可 以 改变 节点 的 分 支 。 图 11-3 是 一 个 改变 了 所 需 子 节点 数目 的 函数 ， 
为 此 ， 我 们 可 以 删除 旧 的 分 支 ， 也 可 以 增加 新 的 分 支 。 
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图 11-3: 通过 改变 节点 处 的 函数 进行 变异 
另 一 种 变异 的 方式 ， 是 利用 一 棵 全 新 的 树 来 替换 某 一 子 树 ， 如 下 页 图 11-4 所 示 。 


变异 采用 的 次 数 不 宜 过 多 。 例 如 ， 我 们 不 宜 对 整 棵 树 上 的 大 多 数 节点 都 实施 变异 。 相 反 ， 
我 们 可 以 为 任何 须要 进行 修改 的 节点 定义 一 个 相对 较 小 的 概率 。 从 树 的 根 节点 开始 ， 如 果 
每 次 生成 的 随机 数 小 于 该 概率 值 ， 就 以 如 上 所 述 的 某 种 方式 对 节点 进行 变异 ， 否则， 就 再 
次 对 子 节点 进行 测试 。 


为 了 简单 起 见 ， 此 处 给 出 的 代码 只 实现 了 第 二 种 变异 方式 。 请 新 建 一 个 名 为 mutate 的 函数 
以 完成 这 项 操作 : 


def mutate(t,pc,probchange=0.1): 

if random()<probchange: 
return makerandomt ree (pc) 

else: 
result=deepcopy (t) 
if isinstance(t,node): 

result.children=([mutate(c,pc,probchange) for c in t.children] 

return result 
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11-4: 通过 替换 子 树 进行 变异 


上 述 函 数 从 树 的 根 节 点 开始 ， 逐 一 判断 节点 是 否 应 该 被 修改 。 如 果 不 用 修改 ， 函 数 便 会 在 
树 的 子 节点 上 再 次 调用 自身 。 最 终 ， 我 们 有 可 能 会 对 整 棵 树 都 进行 变异 ， 同 样 也 有 可 能 只 
刀 历 而 不 做 任何 改变 。 


请 尝试 对 此 前 随机 生成 的 程序 执行 若干 次 mutate 函数 , 看 一 看 该 函数 是 如 何 对 树 进行 修改 
的 : 


>>> random2.display() 
subtract 
Fi 


multiply 
isgreater 
po 
pl 
if 
multiply 
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>>> muttree=gp.mutate (random2 ,2) 
>>> muttree.display () 
subtract 
fi 
multiply 
isgreater 


当 对 树 成 功 实施 变异 之 后 ， 我 们 来 看 一 看 scorefunction 的 结果 是 否 有 了 较 大 的 改变 ， 是 
变 好 了 还 是 变 差 了 : 

>>> gp.scorefunction (random2 ,hiddenset) 

125489 


>>> gp.scorefunction (muttree, hiddenset) 
125479 


请 记 住 ， 变 异 是 随机 进行 的 ， 而 且 不 必 非 得 朝 着 有 利于 改善 题解 的 方向 进行 。 我 们 只 是 希 
望 其 中 的 一 部 分 变异 能 够 对 最 终 的 结果 有 所 改善 。 这 种 变化 过 程 会 一 直 持续 下 去 ， 并 且 在 
经 历 过 数 代 之 后 ， 我 们 终 将 找到 最 优 解 。 


交叉 


Crossover 


除了 变异 外 ， 另 一 种 修改 程序 的 方法 称 为 交叉 或 配对 。 其 做 法 是 : 从 众多 程序 中 选 出 两 个 
表现 优异 者 ， 并 将 其 组 合 在 一 起 构造 出 一 个 新 的 程序 ， 通 常 的 组 合 方式 是 用 一 棵 树 的 分 支 
取代 另 一 棵 树 的 分 支 。 图 11-5 给 出 了 一 个 说 明 其 工作 方式 的 例子 。 


执行 交叉 操作 的 函数 以 两 棵 树 作 为 输入 ， 并 同时 开始 向 下 遍历 。 当 到 达 某 个 随机 选 定 的 国 
值 时 ， 该 函数 便 会 返回 前 一 棵 树 的 一 份 拷贝 ， 树 上 的 某 全 分 支 会 被 后 一 棵 树 上 的 一 个 分 支 
所 取代 。 通 过 同时 对 两 棵 树 的 即时 遍历 ， 范 数 会 在 每 棵 树 上 大 致 位 于 相同 层次 的 节点 处 实 
施 交 叉 操 作 。 请 将 crossover 函数 添加 到 gp.py 中 : 


def crossover (tl,t2,probswap=0.7,top=1): 
if random()<probswap and not top: 
return deepcopy (t2) 
else: 
result=deepcopy (t1) 
if isinstance(tl,node) and isinstance(t2,node): 
result.children=([crossover (c, choice (t2.children) , probswap, 0) 
for c in tl.children] 
return result 
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11-5， 交 叉 操 作 


请 针对 一 部 分 随机 生成 的 程序 尝试 执行 一 下 crossover 国 数 。 看 看 交叉 之 后 的 结果 如 何 ， 
同时 也 可 以 看 一 下 ， 如 果 偶 尔 对 两 个 最 优 的 程序 实施 交叉 操作 ， 是 否 会 得 到 一 个 更 优 的 程 
序 : 


>>> randomi=gp.makerandomt ree (2) 
>>> random1.display() 
multiply 
subtract 
po 
8 
isgreater 
po 
isgreater 
pl 
5 
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>>> random2=gp .makerandomtree (2) 
>>> random2.display () 
if 
8 
pl 
2 
>>> cross=gp.crossover (randoml , random2) 
>>> cross.display () 
multiply 
subtract 
po 
8 
2 


你 也 许 会 注意 到 ， 交 换 两 个 分 支 可 能 会 完全 改变 程序 的 行为 。 或 许 你 还 会 注意 到 ， 导 致 各 
个 程序 最 终 接近 于 正确 答案 的 原因 可 能 是 五 花 八 门 的 ， 因 此 ， 将 两 个 程序 合并 后 得 到 的 结 
果 可 能 会 与 前 两 者 都 截然 不 同 。 同 样 ， 此 处 我 们 的 希望 是 ， 某 些 交 叉 操作 会 对 题解 有 所 改 
进 ， 并 且 这 些 题 解 会 被 保留 到 下 一 代 。 


构筑 环境 


Building the Environment 


有 了 度量 程序 优 劣 的 办 法 和 修改 最 优 程序 的 两 种 方法 ， 我 们 现在 可 以 开始 构筑 供 程序 进化 
用 的 竞争 环境 了 。 相 应 的 操作 步骤 如 图 11-1 中 的 流程 图 所 示 。 本 质 上 ， 我 们 的 思路 是 要 生 
成 一 组 随机 程序 并 择优 复制 和 修改 ， 然 后 一 直 重复 这 一 过 程 直 到 终止 条 件 满 足 为 止 。 


请 新 建 一 个 名 为 evolve 的 函数 ， 用 以 执行 上 述 过 程 : 


def evolve (pc,popsize,rankfunction,maxgen=500, 
mutationrate=0.1,breedingrate=0.4,pexp=0.7,pnew=0.05): 
# 返回 一 个 随机 数 ， 通 常 是 一 个 较 小 的 数 
# pexp 的 取 值 越 小 ， 我 们 得 到 的 随机 数 就 越 小 
def selectindex(): 
return int (log {random ({())/log (pexp))} 


# 创建 一 个 随机 的 初始 种 群 
population=(makerandomtree(pc) for i in range(popsize) ] 
for iin range (maxgen) : 

scores=rankfunction (population) 

print scores[0] [0] 

if scores[{0][0)==0: break 


# 总 能 得 到 两 个 最 优 的 程序 
newpop=[scores[0] [1],scores[1][1L]] 
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# 构造 下 一 代 
while len(newpop) <popsize: 
if random()>pnew: 
newpop. append (mutate ( 
crossover (scores[selectindex()] [1], 
scores[(selectindex()][1], 
probswap=breedingrate), 
pc, probchange=mutationrate) ) 
else: 


# 加 入 一 个 随机 节点 ， 以 增加 种 群 的 多 样 性 
newpop. append (makerandomtree (pc) ) 
population=newpop 


scores[0][1].display() 
return scores[0] [1] 


上 述 函 数 首先 创建 一 个 随机 种 群 。 然 后 循环 至 多 maxgen 次 ， 每 次 循环 都 会 调用 
rankfunction 对 程序 按 表 现 从 优 到 劣 的 顺序 进行 排列 。 表现 最 优 者 会 不 加 修改 地 自动 进入 
到 下 一 代 ， 有 时 我 们 称 这 样 的 方法 为 精英 选拔 法 (elitism) 。 至 于 下 一 代 中 的 其 他 程序 ， 则 
是 通过 随机 选择 排名 靠 前 者 ， 再 经 交叉 和 变异 之 后 得 到 的 。 这 一 过 程 会 一 直 重 复 下 去 ， 直 
到 某 个 程序 达到 了 完美 的 0 分 值 ， 或 者 重复 次 数 达 到 了 maxgen 次 为 止 。 
evolve 国 数 有 多 个 参数 ， 用 以 从 各 个 不 同 的 方面 对 竞争 环境 加 以 控制 ， 说 明 如 下 。 
rankfunction 

对 应 于 一 个 函数 ， 即 : 将 一 组 程序 按 从 优 到 劣 的 顺序 进行 排列 的 函数 。 
mutationrate 

代表 了 发 生变 异 的 概率 ， 该 参数 会 被 传递 给 mutate, 


breedingrate 

代表 了 发 生 交 叉 的 概率 ， 该 参数 会 被 传递 给 crossover, 
popsize 

初始 种 群 的 大 小 
probexp 


表示 在 构造 新 的 种 群 时 , “选择 评价 较 低 的 程序 ”这 一 概率 的 递减 比率 。 读 值 越 大 ， 相 
应 的 筛选 过 程 就 越 严格 ， 即 : 只 选择 评价 最 高 者 作为 复制 对 象 的 概率 就 越 大 。 


probnew 


表示 在 构造 新 的 种 群 时 , “引入 一 个 全 新 的 随机 程序 "的 概率 。 参 数 probexp Fil probnew 
会 在 接 下 来 的 “多 样 性 的 重要 价值 ”一 节 中 得 到 进一步 讨论 。 
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在 我 们 的 程序 真正 开始 进化 之 前 ， 还 有 最 后 一 件 事情 须要 做 ， 即 : 根据 scorefunction 得 
到 的 结果 对 程序 进行 排序 。 请 在 gp.py 中 新 建 一 个 名 为 getrankfunction 的 函数 ， 该 函数 
将 会 返回 一 个 针对 给 定数 据 集 的 排序 函数 ， 


def getrankfunction (dataset): 
def rankfunction (population): 
scores=([(scorefunction(t,dataset),t) for t in population) 
scores.sort () 
return scores 
return rankfunction 


现在 ， 我 们 可 以 开始 为 前 述 数据 集 自动 生成 代表 数学 公式 的 程序 了 。 请 在 你 的 Python 会 话 
中 尝试 执行 如 下 语句 : 


>>> reload (gp) 

>>> rf=gp.getrankfunction (gp .buildhiddenset{()) 
>>> gp.evolve(2,500,rf,mutationrate=—0.2,breedingrate=0 .1 ,pexp=0 .7 ,pnew=0 .1) 
16749 

10674 

5429 

3090 

491 

T51 

151 

0 

add 

multiply 


pl 
isgreater 
10 
5 


此 处 的 数字 变化 得 很 慢 , 但 是 它 最 终 应 该 会 逐步 减 到 0。 有 意思 的 是 , 尽管 这 里 给 出 的 解 是 
完全 正确 的 ， 但 是 它 显然 比 我 们 此 前 构造 数据 集 时 所 用 的 函数 要 复杂 得 多 。{ 自 动 生成 得 到 
的 题解 极 有 可 能 会 比 我 们 所 设想 的 还 要 复杂 。) 不 过 ， 只 需 一 点 代数 知识 我 们 就 会 发 现 ， 这 
些 函 数 实际 上 都 是 等 价 的 一 一 记 住 此 处 的 po 为 X，pl 为 Y。 下 面 第 一 行 对 应 的 函数 , 便 是 
根据 前 面 生 成 的 树 得 到 的 : 

(X* (2+X) ) +X+4+Y+Y+ (10>5) 


= 2*X+X*X+X+4+Y+Y+1 
= 六 YY + 5 
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上 述 例子 告诉 我 们 遗传 编程 的 一 个 重要 特征 : 算法 找到 的 题解 也 许 是 完全 正确 的 ， 亦 或 是 
非常 不 错 的 ， 但 是 由 于 其 构造 方式 的 独特 性 ， 通 常 这 些 题解 远 比 编程 人 员 手 工 设计 出 来 的 
答案 复杂 得 多 。 在 这 样 的 程序 中 ， 我 们 时 常会 发 现 有 大 段 的 内 容 不 做 任何 工作 ， 或 者 对 应 
的 是 形式 复杂 、 但 始终 都 只 返回 同一 结果 的 公式 。 请 注意 ， 在 上 面 的 例子 中 ， 节 点 (10>5) 
只 不 过 是 | 的 一 种 奇怪 的 表达 方式 而 已 。 


要 让 程序 保持 简单 是 可 以 的 ， 但 是 多 数 情况 下 这 样 做 会 增加 我 们 寻找 优 解 的 难度 。 解 决 这 
一 问题 的 一 种 更 好 的 方法 是 ， 允 许 程序 不 断 进 化 以 形成 优 解 ， 然 后 再 删除 并 简化 树 中 不 必 
要 的 部 分 。 我 们 可 以 手工 完成 这 项 工作 ， 也 可 以 借助 剪 枝 算法 自动 进行 。 


多 样 性 的 重要 价值 


JS Ty 


evolve FARE A — BBS) RBG 2s FEE Be EB HAY ME ATE, ARARA 
个 排 在 最 前 列 的 程序 ， 然 后 对 其 进行 复制 和 修改 以 形成 新 的 种 群 ， 这 样 的 做 法 很 具有 吸引 
力 。 毕竟 ， 为 什么 我 们 要 不 厌 其 烦 地 将 表现 一 般 的 程序 继续 保留 到 下 一 代 呢 ? 


问题 在 于 ， 仅仅 选择 表现 优异 的 少数 几 个 题解 很 快 就 会 使 种 群 变 得 极端 同 质 化 
(homogeneous ， 或 称 为 近亲 交配 ， 如 果 大 家 更 习惯 于 这 样 称 呼 的 话 ) : 尽管 种 群 中 所 包含 
的 题解 ， 表 现 都 非常 不 错 ， 但 是 它们 彼此 间 不 会 有 太 大 的 差异 ， 因 为 在 这 些 题解 间 进 行 的 
交叉 操作 最 终 会 导致 种 群 内 的 题解 变 得 越 来 越 相 似 。 我 们 称 这 一 现象 为 达到 局 部 最 大 化 
(local maxima) 。 对 于 种 群 而 言 ， 局 部 最 大 化 是 一 种 不 错 的 状态 ， 但 还 称 不 上 是 最 佳 的 状 
态 。 在 处 于 这 种 状态 的 种 群 里 ， 任 何 细 小 的 变化 都 不 会 对 最 终 的 结果 产生 多 大 的 改变 。 


事实 证 明 ， 将 表现 极为 优异 的 题解 和 大 量 成 绩 尚 可 的 题解 组 合 在 一 起 ， 往 往 能 够 得 到 更 好 
的 结果 。 基 于 这 一 原因 ，evolve 函数 提供 了 两 个 额外 的 参数 ， 允 许 我 们 对 筛选 进程 中 的 多 
样 性 进行 调整 。 通 过 降低 probexp 的 值 ， 我 们 允许 表现 较 差 的 题解 进入 最 终 的 种 群 之 中 ， 
从 而 将 “ 适 者 生存 (survival of the fittest)” 的 筛选 进程 调整 为 “最 适合 者 及 最 幸运 者 生存 
(survival of the fittest and luckiest)”。 通 过 增加 probnew 的 值 ， 我 们 还 允许 全 新 的 程序 被 随 
机 地 加 入 到 种 群 中 。 这 两 个 参数 都 会 有 效 地 增加 进化 进程 中 的 多 样 性 ， 同 时 又 不 会 对 进程 
有 过 多 的 扰乱 ， 因 为 ， 表 现 最 差 的 程序 最 终 总 是 会 被 吻 除 掉 的 。 


一 个 简单 的 游戏 
A Simpie Game 


关于 遗传 编程 ， 还 有 一 个 更 为 有 趣 的 应 用 ， 那 就 是 为 游戏 引入 人 工 智能 。 通 过 彼此 竞争 以 
及 真人 对 抗 ， 为 表现 优异 的 程序 提供 更 多 的 进入 下 一 代 的 机 会 ， 我 们 可 以 让 程序 不 断 地 得 
到 进化 。 在 本 节 中 ， 我 们 将 编写 一 个 非常 简单 的 游戏 模拟 程序 ， 称 为 Grid War， 如 下 页 图 
11-6 所 示 。 
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图 11-6: Grid War 的 例子 


该 游戏 有 两 位 玩家 参与 ， 每 个 人 轮流 在 一 系列 小 网 格 中 移动 。 每 位 玩家 可 以 选择 4 个 方向 
中 的 任何 一 个 进行 移动 ， 并 且 游 戏 区 域 是 受 限 的 ， 如 果 其 中 一 位 玩家 企图 移 到 边界 以 外 ， 
他 就 丢掉 了 这 一 局 。 游 戏 的 目标 是 要 在 自己 这 一 局 中 提 住 对 方 ， 相 应 的 方法 是 ， 只 要 将 自 
己 移 至 对 方 所 在 的 区 域 即 可 。 唯 一 的 附加 条 件 是 ， 如 果 你 试图 在 一 行 的 同一 个 方向 上 移动 
两 次 ， 那 就 自动 认输 了 。 这 个 游戏 虽然 非常 简单 ， 但 是 由 于 它 要 求 玩 家 彼此 相互 博弈 ， 
此 我 们 会 从 中 了 解 到 更 多 有 关 进 化 在 竞争 性 方面 的 细节 。 


首先 ， 我 们 来 创建 一 个 函数 ， 该 函数 涉及 两 位 玩家 ， 并 在 双方 之 间 模 拟 一 场 游 戏 。 函 数 将 
玩家 及 其 对 手 的 所 在 位 置 ， 连 同 他 走 的 上 一 步 ， 依 次 传 给 每 一 个 程序 ， 并 根据 返回 的 结果 
决定 下 一 步 该 如 何 移 动 。 


我 们 用 数字 0 到 3 来 代表 移动 的 方向 ， 即 4 个 可 能 方向 中 的 一 个 ， 不 过 由 于 所 要 处 理 的 随 
机 程序 是 可 以 返回 任意 整数 的 ， 所 以 函数 必须 对 超出 值 域 范围 的 情况 进行 处 理 。 为 此 ， 我 
们 以 4 为 模 对 结果 进行 求 模 运 算 。 此 外 ， 我 们 的 随机 程序 所 提供 的 方案 ， 还 有 可 能 会 让 玩 
家 在 一 个 圆周 范围 内 不 停 地 移动 ， 或 者 是 诸如 此 类 的 方案 ， 因 此 我 们 将 移动 的 步 数 限制 在 
50 步 ， 超 过 50 就 认为 是 打 成 了 平局 。 


请 将 gridgame 添加 到 gp.py 中 : 
def gridgame(p): 


# 游戏 区 域 的 大 小 


max= (3,3) 


# 记 住 每 位 玩家 的 上 一 步 


lastmove=[-1,-1] 


t 记 住 玩家 的 位 置 


location=[[randint (0,max[0]),randint (0,max{[1])]] 


# 将 第 二 位 玩家 放 在 离 第 一 位 玩家 足够 远 的 地 方 
location.append([{location[0] [0]+2)%4, (location[0] [1]+2)%4]) 
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# 打 成 平局 前 的 最 大 移动 步 数 为 50 


for o in range(50): 


# 针对 每 位 玩家 

for i in range(2): 
locs=location[i] [:]+location[1-i] [:] 
locs.append (lastmove[i}) 
move=p [il ,evaluate (locs) $4 


# 如 果 在 一 行 中 朝 同 一 个 方向 移动 了 两 次 ， 就 判定 为 你 输 
if lastmove[{i]==move: return l-i 
lastmove [i] =move 
if move==0: 
location[i] [0]-=1 
# 限制 游戏 区 域 
if location[il[0]<0: location[i]l[0]=0 
if move==1: 
location[i] [0)+=1 
if location[i}) [0]>max[0): location[i] [0]=max{0] 
if move==2: 
location[i]J [1]-=1 
if location[i][1]<0: location[i] [1]=0 
if move==3: 
location[i] [1]+=1 
if location[i)[{1]>max[1]: location[i] [1] =max[1] 


# 如 果 抓 住 了 对 方 玩家 ， 就 判定 为 你 赢 
if location[i]==location[l-i]: return i 
return -1 


WRECK 1 是 赢家 ， 程 序 就 返回 0， 如 果 玩 家 2 是 赢家 ， 程 序 就 返回 1， 如 果 打 成 了 平局 ， 
就 返回 -1。 我 们 可 以 尝试 构造 两 个 随机 程序 ， 并 让 它们 彼此 展开 竞争 : 


>>> reload (gp) 
<module 'gp' from 'gp.py'> 
>>> pl=gp.makerandomtree (5) 
>>> p2=gp.makerandomtree (5) 
>>> gp.gridgame([p1,p2]) 

1 


上 述 程序 是 完全 没有 经 过 进化 的 ， 因 此 它们 可 能 会 因为 在 一 行 上 朝 同 一 方向 移动 两 次 而 输 
掉 游戏 。 理 想 情 况 下 ， 一 个 进化 过 的 程序 会 学 会 避免 这 种 情形 。 


循环 赛 


A Round-Robin Tournament 


与 通常 的 集体 智慧 应 用 一 样 ， 我 们 也 希望 通过 与 真人 的 对 抗 来 测试 程序 的 适应 性 ， 并 以 这 
样 的 方式 来 迫使 其 得 到 进化 。 这 可 能 会 是 一 种 非常 好 的 方法 ， 因 为 我 们 可 以 捕获 到 数 以 千 
计 的 人 的 行为 ， 并 借 此 开发 出 更 加 智能 的 程序 来 。 然 而 ， 随 着 种 群 数 和 代数 的 激增 ， 这 
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样 做 就 可 能 很 快 使 比赛 的 数量 增加 到 千 百 万 场 ， 并 且 对 于 这 其 中 的 大 多 数 比赛 而 言 ， 对 手 
的 实力 可 能 都 是 非常 弱 的 。 而 这 与 我 们 的 目标 是 不 相符 的 ， 因 此 ， 我 们 不 妨 先 让 这 些 程序 
在 一 场 比赛 中 彼此 展开 竞争 ， 借 此 得 以 进化 。 


下 面 的 tournament 函数 接受 一 个 玩家 列表 作为 输入 ,并 让 每 位 玩家 与 其 他 玩家 一 一 进行 对 
抗 ， 同 时 它 还 会 记录 每 个 程序 在 游戏 中 失败 的 次 数 。 如 果 一 个 程序 输 掉 了 比赛 ， 就 得 2 分 ， 
如 果 打 成 平局 ， 则 得 1 分 。 请 将 tournament 添加 到 gp.py F: 

def tournament (pl): 


# 统计 失败 的 次 数 


losses=[0 for p in pl] 


E 每 位 玩家 都 将 和 其 他 玩家 一 一 对 抗 
for i in range(len(pl)): 
for j in range(len(pl)): 
if i==j: continue 


# 谁 是 胜利 者 ? 
winner=gridgame ([{pl[i],pl{j]]) 


# 失败 得 2 分 ， 打 平 得 1 分 

if winner==0: 
losses [j ]+=2 

elif winner==1: 
losses [i]+=2 

elif winner==-1; 
losses[i]+=1 
losses[i]+=1 
pass 


# 对 结果 排序 并 返回 
z=zip (losses,pl) 
z.sort() 
return Z 


在 函数 的 末尾 处 ， 我 们 对 结果 进行 了 排序 ， 并 且 将 排名 最 靠 前 的 、 失 败 次 数 最 少 的 程序 作 
为 函数 的 返回 值 。 这 一 返回 类 型 是 前 述 的 evolve 函数 对 程序 进行 评估 时 所 必需 的 ,也 就 是 
说 ， 我 们 可 以 将 tournament 函数 作为 参数 传递 给 evolve， 同 时 这 也 意味 着 ， 我 们 现在 可 
以 开始 进行 游戏 ， 对 程序 实施 进化 了 。 请 在 你 的 Python 会 话 中 尝试 执行 上 述 函 数 (这 也 许 
会 花费 一 定 的 时 间 ): 

>>> reload (gp) 


<module ‘gp' from 'gp.py'> 
>>> winner=gp.evolve(5,100,gp. tournament ,maxgen=50) 


随 着 程序 的 进化 ， 我 们 会 注意 到 ， 此 处 代表 失败 次 数 的 数字 并 没有 像 先 前 的 数学 函数 中 那 
样 严格 递减 。 请 想 一 下 这 是 为 什么 呢 一 一 毕竟 ,我们 总 是 让 最 优秀 的 玩家 进入 到 了 下 一 代 ， 
难道 不 是 吗 ? 恰好 ， 因 为 下 一 代 种 群 完全 是 由 新 进化 而 来 的 程序 构成 的 ， 所 以 在 上 一 代 中 
表现 最 为 优异 的 程序 ， 在 下 一 代 中 也 许 会 表现 得 极为 精 糕 。 
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真人 对 搞 


Playing Against Real People 


当 我 们 通过 进化 得 到 了 一 个 程序 ， 如 果 该 程序 在 与 其 他 机 器 人 竞争 者 进行 对 抗 时 表现 得 十 
分 优异 ， 那 么 是 时 候 进 行 真 人 对 抗 了 。 为 此 ， 我 们 可 以 再 新 建 一 个 类 ， 同 样 也 定义 一 个 
evaluate 方法 ， 用 以 向 用 户 显 示 游 戏 的 区 域 ， 并 询问 下 一 步 打算 如 何 走 。 请 将 humanplayer 
类 添加 到 gp.py 中 : 


class humanplayer: 
def evaluate(self,board): 


# 得 到 自己 的 位 置 和 其 他 玩家 的 位 置 
me=tuple (board[0:2]) 
others=[tuple (board[x:x+2]) for x in range(2,len(board)-1,2) ] 


# 显示 游戏 区 域 
for i in range(4): 
for j in range(4): 
if (i,j) ==me: 


print 10$ 
elif (i,j) in others: 
print ‘xX’, 
else: 
print To" 
print 


# 显示 上 一 步 ， 作 为 参考 


print ‘Your last move was $d' % board[len (board) -1] 


print 六 0O' 
peint 23" 
print ‘ 1' 


print ‘Enter move: ', 


# 不 论 用 户 输入 什么 内 容 ， 均 直接 返回 
move=int (raw_input()) 
return move 


请 在 你 的 Python 会 话 中 ， 尝 试 执行 上 述 函 数 : 


>>> reload (gp) 

<module 'gp' from ‘gp.py'> 

>>> gp.gridgame ([(winner,gp.humanplayer () ] ) 
5 


. . . x 
Your last move was -1 
23 


1 
Enter move: 
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或 许 你 会 发 现 ， 我 们 的 程序 不 堪 一 击 ， 或 者 也 有 可 能 会 极 难 对 付 ， 这 取决 于 程序 的 进化 程 
度 。 这 些 程序 几乎 肯定 会 掌握 “不 能 在 一 行 里 朝 同一 方向 移动 两 次 ”的 策略 ， 因 为 那样 会 
即刻 导致 死亡 ， 但 是 它 掌握 其 他 对 抗 策略 的 程度 则 要 视 每 一 次 进化 情况 的 不 同 而 定 。 


更 多 可 能 性 


Further Possibilities 


本 章 只 是 遗传 编程 的 一 个 引 介 ， 遗传 编 程 是 一 个 巨大 的 、 飞 速 发 展 的 领域 。 截 至 目前 ， 我 
们 已 经 利用 这 一 方法 解决 了 一 些 简单 的 问题 ， 在 这 些 问题 的 解决 过 程 中 ， 自 动 构 建 程序 所 
花费 的 时 间 是 按 分 钟 而 非 天 来 计算 的 ， 但 是 其 中 的 原则 同样 适用 于 更 为 复杂 的 问题 。 与 更 
为 复杂 的 问题 相 比 ， 本 章 中 种 群 所 包含 的 程序 数 已 经 算是 非常 小 了 个 更 为 典型 的 种 
群 规模 差不多 有 数 千 或 数 百 万 之 多 。 我 们 鼓励 大 家 去 尝试 难度 更 大 的 问题 ， 并 尝试 更 大 的 
种 群 规模 ， 只 是 当 程 序 运行 时 ， 也 许 我 们 须要 等 上 数 小 时 或 数 天 的 时 间 才 能 得 到 最 终 的 结 
果 。 


下 面 几 个 小 节 为 我 们 简要 列 出 了 几 种 方法 ， 借 助 这 些 方法 我 们 可 以 将 简单 的 遗传 编程 模型 
扩展 到 各 种 不 同 的 应 用 领域 。 





More Numerical Functions 


到 目前 为 止 ， 我 们 为 了 构造 随机 程序 ， 已 经 采用 过 若干 个 数值 型 的 函数 。 不 过 ， 这 不 足以 
体现 一 个 简单 程序 所 能 应 用 的 范围 一 一 面 对 更 为 复杂 的 问题 ， 我 们 须要 着 力 增加 可 供 选 用 
的 函数 ， 以 帮助 我 们 成 功 构造 出 程序 树 来 。 下 面 是 一 些 可 供 选 择 的 函数 。 


。 ”三角 函数 ， 比 如 正弦 、 余 弦 和 正切 函数 。 

。 其 他 数学 函数 ， 比 如 乘 方 、 平 方 根 和 绝对 值 。 

。 ”统计 分 布 ， 比 如 高 斯 分 布 。 

。 ”距离 度量 ， 比 如 欧 几 里 德 距 离 和 Tanimoto 距离 。 

。 ”一 个 包含 3 个 参数 的 函数 ， 如 果 第 一 个 参数 介 于 第 二 个 和 第 三 个 之 间 ， 则 返回 1。 
© ”一 个 包含 3 个 参数 的 函数 ， 如 果 前 两 个 参数 的 差 小 于 第 三 个 ， 则 返回 1。 


正如 我 们 所 期 望 的 ， 这 些 函 数 算是 较为 复杂 的 ， 我 们 在 利用 这 些 函 数 解决 具体 问题 时 ， 往 
往 须 要 对 其 进行 裁减 。 在 解决 信号 处 理 领域 中 的 问题 时 ， 三 角 函 数 也 许 是 必要 的 ， 不 过 在 
本 章 我 们 所 构建 的 游戏 中 ， 三 角 函 数 的 用 处 就 不 大 了 。 
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记忆 力 

Memory | 

本 章 中 构造 的 程序 几乎 完全 是 “反应 式 ” 的 (reactive)， 它 们 只 会 根据 输入 来 给 出 结果 。 尽 
管 这 种 做 法 对 于 解决 数学 函数 的 问题 是 有 效 的 ， 但 是 它 却 使 我 们 的 程序 在 执行 时 缺少 了 长 
期 策略 (longer-term strategy)。 在 前 面 的 “追逐 ”游戏 (chasing game) 中 ， 我 们 会 将 上 一 
步 操作 传递 给 程序 一 一 因而 大 多 数 情况 下 ， 程 序 会 明白 ， 它 们 不 可 以 在 一 行 里 朝 相 同方 向 
移动 两 次 一 一 但 这 仅仅 是 程序 的 一 种 输出 而 已 ， 并 非 它 们 自己 做 出 的 决策 。 


如 果 一 个 程序 要 发 展 出 更 为 长 期 的 策略 ， 那 么 就 须要 有 一 种 方法 ， 能 够 将 下 一 回合 中 需要 
用 到 的 信息 保存 起 来 。 实 现 这 一 功能 的 一 种 简单 办 法 是 : 建立 一 种 新 类 型 的 节点 ， 用 以 将 
信息 存 人 预先 定义 好 的 内 存 槽 (slot) 内 ， 或 从 槽 中 取出 。 一 个 用 于 存 入 信息 的 节点 (store 
node) ， 包 含 一 个 子 节 点 和 一 个 指向 记忆 槽 的 索引 ， 它 会 从 子 节 点 中 取出 结果 ， 并 存 人 内 存 
槽 中 ， 然 后 再 将 结果 一 同 传递 给 其 父 节点 。 一 个 用 于 取 回 信息 的 节点 (recall node) ， 不 包 
含 任何 子 节点 ， 并 且 它 只 返回 位 于 相应 槽 中 的 结果 值 。 如 果 一 个 存 人 节点 位 于 树 的 根部 ， 
则 树 上 的 任何 一 个 部 位 ， 只 要 具有 相应 的 取 回 节点 ， 就 可 以 获取 到 最 终 的 结果 值 。 


除了 独 享 内 存 (individual memory) 外 , 我 们 还 可 以 设置 共享 内 存 ,， 以 供 所 有 程序 读 写 之 用 。 
共享 内 存 除 了 有 一 组 可 供 所 有 程序 读 写 的 内 存 槽 外 ， 与 独 享 内 存 并 设 有 多 大 的 区 别 。 共 享 
内 存 为 更 高 级 别 的 协作 与 竞争 创造 了 条 件 。 


不 同 数 据 类 型 
Diflerent Datatypes 
本 章 所 讨论 的 框架 是 完全 针对 于 接受 整 型 参数 并 返回 整 型 结果 的 程序 的 。 因 为 浮 点 数 的 操 


作 和 整 型 是 类 似 的 ， 所 以 我 们 只 要 稍 作 修改 就 可 以 将 其 用 于 浮 点 数 。 为 此 ， 我 们 只 须 修 改 
makerandomtree， 以 随机 的 浮 点 值 而 非 整 型 值 来 生成 常量 节点 。 


假如 我 们 要 让 程序 能 够 处 理 其 他 类 型 的 数据 ， 则 还 须 做 更 大 范围 的 修改 ， 大 部 分 修改 都 是 
针对 节点 上 的 函数 进行 的 。 对 基础 框架 进行 修改 之 后 ， 我 们 可 以 令 其 支持 如 下 类 型 的 数据 。 
字符 串 


字符 串 的 相关 操作 包括 连接 (concatenate) 、 分 割 (split), #5! (indexing) 和 求 子 串 
(substrings) 。 


列表 

列表 操作 与 字符 串 操作 差 不 多 。 
字典 

字典 的 相关 操作 包括 替换 和 添加 。 
对 象 


任何 一 个 自 定义 对 象 都 可 以 用 于 一 棵 树 的 输入 ， 树 上 节点 处 的 函数 就 对 应 于 该 对 象 的 
方法 调用 。 
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从 上 述 这 些 例子 中 我 们 可 以 得 出 一 个 很 重要 的 结论 : 我 们 时 常会 要 求 树 上 的 节点 处 理 不 止 
一 种 类 型 的 返回 值 。 比 如 ， 一 个 求 子 串 的 操作 就 需要 一 个 字符 串 和 两 个 整数 作为 输入 ， 这 
意味 着 : 子 节点 中 必须 有 一 个 返回 字符 串 ， 而 另 两 个 则 分 别 返回 整数 。 


针对 上 述 情况 ， 一 种 最 为 简单 的 做 法 是 ， 随 机 地 生成 树 上 的 节点 ， 对 节点 施 以 变异 和 配对 ， 
并 剔除 那些 数据 类 型 不 匹配 的 节点 。 但 是 这 在 计算 上 可 能 是 一 种 浪费 ， 何 况 我 们 已 经 掌握 
了 为 树 的 构造 增加 限制 条 件 的 方法 一 一 在 前 面 处 理 整 型 值 的 树 中 ， 每 个 节点 处 的 函数 都 知 
道 自 己 需要 多 少子 节点 ， 同 样 ， 我 们 可 以 如 法 炮制 ， 对 子 节点 的 类 型 及 其 返回 类 型 加 以 限 
制 。 例 如 ， 我 们 可 以 按照 如 下 方式 重新 定义 fwrapper 类 ， 此 处 的 params 是 一 个 字符 串 列 
表 ， 它 为 每 个 参数 指定 了 所 使 用 的 数据 类 型 : 

class fwrapper: 

def init _ (self, function, params, name) : 

self.function=function 


self.childcount=param 
self .name=name 


同时 ， 我 们 或 许 还 希望 将 flist 设置 为 一 个 带 返 回 值 类 型 的 字典 。 例 如 : 


flist={'str':[substringw,concatw],'int': [indexw, addw, subw)} } 


然后 ， 我 们 可 以 将 makerandomtree 的 开始 部 分 按 如 下 方式 进行 修改 : 


def makerandomtree (pc, datatype, maxdepth=4, fpr=0.5,ppr=0.5): 
if random()<fpr and maxdepth>0: 
f=choice (flist [datatype] ) 
# 依据 所 有 针对 于 上 的 参数 类 型 ， 逐 一 调用 makerandaomtree 
children=[makerandomtree (pc, type, maxdepth-1, fpr, ppr) 
for type in f.params] 
return node(f,children) 





fal##, crossover 函数 也 可 能 须要 进行 相应 的 修改 ， 以 确保 实施 交换 的 节点 具有 相同 的 返 
回 类 型 。 


有 关 如 何 将 遗传 编程 从 一 个 简单 模型 扩展 到 更 为 复杂 的 情形 ， 本 节 从 概念 上 为 我 们 提供 了 
一 些 思 路 ， 同 时 我 们 也 鼓励 大 家 进一步 对 其 加 以 完善 ， 并 尝试 将 自动 生成 的 程序 用 于 更 为 
复杂 的 问题 。 尽 管 程序 的 生成 过 程 可 能 会 耗费 相当 长 的 时 间 ， 但 是 一 旦 找到 了 一 个 表现 优 
异 的 程序 ， 我 们 就 可 以 对 其 反复 地 加 以 利用 。 
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练习 


Exercises 


一 一 


. 更 多 的 函数 类 型 ”前 面 我 们 只 给 出 了 少数 几 个 函数 。 你 还 能 想到 其 他 函数 吗 ? 请 实现 一 
个 带 4 个 参数 的 欧 几 里 德 距离 节点 。 


2. 蔡 换 变异 ”请 实现 如 下 变异 过 程 : 选择 树 上 的 一 个 随机 节点 并 对 其 加 以 修改 。 请 确保 其 
可 以 处 理 ， 函数 、 常 量 ， 以 及 参数 型 节点 。 假 如 我 们 利用 该 函数 取代 原来 的 分 支 替 换 方 
式 ， 那 么 对 进化 的 效果 会 有 怎样 的 影响 呢 ? 


3. 随机 交叉 ”目前 crossover 函数 的 做 法 是 从 两 棵 树 上 的 相同 层级 处 选择 分 支 。 请 再 编写 一 
个 crossover 函数 ， 人 允许 对 任意 两 个 随机 分 支 进行 交叉 操作 。 这 对 进化 的 效果 会 有 怎样 的 
影响 ? 


, 终止 进化 过 程 请 为 进化 过 程 再 添加 一 个 条 件 : 如 果 最 佳 分 值 在 经 历 过 X 代 之 后 没有 得 
到 任何 改善 ， 则 进化 过 程 结 束 ， 并 返回 最 终结 果 。 


5. 隐 函 数 (hidden functions) ”请 尝试 再 设计 几 个 数学 函数 ， 供 程序 进行 推测 。 其 中 ， 哪 
些 函 数 更 容易 被 程序 发 现 ? 而 哪些 则 更 难于 发 现 呢 ? 


6. Grid War 的 玩家 请 尝试 自己 手工 设计 一 个 能 够 在 Grid War 游戏 中 有 出 色 发 挥 的 程序 。 
假如 你 认为 设计 这 样 一 个 程序 不 费 吹 灰 之 力 ， 那 就 请 尝试 再 手工 编写 一 个 完全 不 同 的 程 
序 吧 。 与 此 前 完全 随机 的 初始 种 群 不 同 ， 此 处 我 们 让 种 群 中 的 大 部 分 程序 都 随机 生成 ， 
同时 将 手工 设计 的 程序 也 包含 进来 。 如 何 将 其 与 随机 程序 进行 比较 ? 这 对 于 进化 的 效果 
会 有 改善 吗 ? 


7. 井 字 游戏 (tic-tac-toe) ”请 构造 一 个 井 字 游 戏 的 模拟 程序 。 设 立 一 个 与 Grid War 类 似 的 
比赛 。 看 一 看 程序 的 表现 如 何 ? 它们 能 否 在 学 习 中 逐渐 成 长 为 “高 手 ”? 


. 带 数据 类 型 的 节点 ”本 章 就 如 何 实现 带 多 个 数据 类 型 的 节点 为 我 们 提供 了 一 些 思路 。 请 
将 这 些 思路 付 诸 实现 ， 看 看 我 们 是 否 能 对 一 个 程序 实施 进化 ， 使 其 能 够 学 会 返回 一 个 字 
符 串 的 第 2、 第 3、 第 6 和 第 7 个 字符 〈 比 如 ,“genetic” 会 变 成 “enic" ) 。 


> 


o0 
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本 书 向 大 家 介绍 了 若干 种 不 同 的 算法 ， 假 如 读者 研习 过 书 中 的 示例 ， 那 么 现在 手头 就 应 该 
有 大 多 数 算法 的 Python 实现 代码 。 之 前 的 章节 在 内 容 组 织 上 都 是 围绕 着 一 个 样 例 问 题 、 解 
决 该 问题 的 相应 算法 ， 及 其 变 体 这 样 的 形式 来 介绍 的 。 本 章 可 以 作为 相关 算法 的 一 个 参考 。 
因此 ， 假 如 读者 希望 对 某 个 新 的 数据 集 进 行 数据 挖掘 或 是 机 器 学 习 ， 那 么 不 妨 可 以 参看 一 
下 此 处 的 算法 ， 然 后 再 择优 而 用 ， 同 时 ， 我 们 还 可 以 利用 已 经 编写 好 的 算法 实现 代码 ， 帮 
助 我 们 对 数据 进行 分 析 。 


为 了 让 大 家 不 至 于 因 查 找 某 条 
提供 针对 于 第 种 算法 的 算 汰 所 于 
PACA ETA A. BR ae 
WIE, TARRA 查 
解释 算法 的 某 些 特征 。 这 些 性 于 部 
下 数据 就 知道 该 如 何 解决 一 基价 暴 


i i 


中叶 斯 分 类 器 让 


ÑE ee 

















sie 而 重新 回 过 头 去 翻阅 整 本 书 ， 笔 者 会 在 本 章 中 
pet, 适用 的 数据 集 类 型 ， 以 及 算法 实 

算法 的 优 缺 点 说 明 (或 者 ， 如 果 你 愿 
ZO), ， 偶 尔 还 会 借助 示例 来 
中 的 多 数 例子 只 要 大 家 看 一 
有 价值 的 。 


Se, MBA 
Rea He He — 2) ea EA BEL 
nh 


We 和 f) MAA 


贝 叶 斯 分 类 器 是 在 ea. tem rece ae. | 立 一 个 文档 分 类 系 
统 ， 将 其 用 于 垃圾 ik 1 SRE RR aR AE PRM 7212 

尽管 所 有 的 例子 都 bes rm. m De LE. See eae 
何其 他 形式 的 数据 时 办 要 我 们 能 将 其 eaa Y MEE, nenna 
项 中 存在 或 缺少 的 蘑 ia xno > yer. 但 它们 也 可 以 是 


277 


ww ai bbt. com DOOO000 


某 个 不 明 对 象 的 特有 属性 、 一 种 疾病 的 症状 ， 或 是 其 他 任何 形式 的 东西 ， 只 要 我 们 能 够 称 
其 是 “存在 的 ”或 “缺少 的 ” 即 可 。 


训练 


和 所 有 监督 算法 一 样 ， 贝 叶 斯 分 类 器 是 利用 样本 进行 训练 的 。 每 个 样本 包含 了 一 个 特征 列 
表 和 对 应 的 分 类 。 假 定 我 们 要 对 一 个 分 类 器 进行 训练 ， 使 其 能 够 正确 判断 出 : 一 篇 包含 单 
词 “python” 的 文档 究竟 是 关于 编程 语言 的 ， 还 是 关于 蛇 的 。 表 12-1 给 出 了 一 个 样本 训练 
集 。 


表 12-1: 针对 一 组 文档 的 特征 和 分 类 


,特征 : - ca aire Ses | Et iF = ae S -aai ERS RE Oey aS ir 
Python 是 以 Bho Atha ht Ko 蛇 

Python 最 初 是 作为 一 门 脚本 语言 被 开发 出 来 的 语言 

在 印度 尼 西 亚 发 现 了 一 条 14.935 米 (49 英尺 ) 长 的 Python 蛇 

Python 具有 动态 类 型 系统 语言 

拥有 坪 拖 表皮 的 Python + 

开源 项 目 语言 


分 类 器 记录 了 它 迄 今 为 止 见 过 的 所 有 特征 ， 以 及 这 些 特 征 与 某 个 特定 分 类 相关 联 的 数字 概 
率 。 分 类 器 逐一 接受 样本 的 训练 。 当 经 过 某 个 样本 的 训练 之 后 ， 分 类 器 会 更 新 该 样本 中 特 
征 与 分 类 的 概率 ， 同 时 还 会 产生 一 个 新 的 概率 ， 即 : 在 一 篇 属于 某 个 分 类 的 文档 中 ， 含 有 
指定 单词 的 概率 。 例 如 ， 经 过 如 表 12-1 所 示 的 一 组 文档 的 训练 之 后 ， 也 许 我 们 最 终 会 得 到 
如 表 12-2 所 示 的 一 组 概率 。 


表 12-2: 单词 属于 某 个 给 定 分 类 的 概率 
a) i ne oe 
eal , a vig tee us MP pata ehh 
— esl 
ae [oo 


source © 





and 


从 上 表 中 我 们 可 以 看 到 ， 经 过 训练 之 后 ， 特 征 与 各 种 分 类 的 关联 性 更 加 明确 了 。 单 词 
“constrictor” 属 于 蛇 的 分 类 概率 更 大 ， 而 单词 “dynamic” 属 于 编程 语言 的 分 类 概率 更 大 。 
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另 一 方面 ， 有 些 特征 的 所 属 分 类 则 并 没有 那么 明确 ， 比 如 : 单词 “and” 出 现在 两 个 分 类 中 
的 概率 是 差不多 的 (单词 “and” 几 乎 会 出 现在 每 一 篇 文档 中 ， 不 管 它 属于 哪 一 个 分 类 ) 。 
分 类 器 在 经 过 训练 之 后 ， 只 会 保留 一 个 附 有 相应 概率 的 特征 列表 ， 与 某 些 其 他 的 分 类 方法 
不 同 ， 此 处 的 原始 数据 在 训练 结束 之 后 ， 就 没有 必要 再 加 以 保存 了 。 


分 类 


| d ri ¢ 
(ld yl! yilisd 


当 一 个 贝 叶 斯 分 类 器 经 过 训练 之 后 ， 我 们 就 可 以 利用 它 来 对 新 的 项 目 进行 自动 分 类 了 。 假 
定 我 们 有 一 篇 新 的 文档 包含 了 特征 “long”"、“dynamic” 和 “source”。 表 12-2 列 出 了 每 个 
特征 的 概率 ， 但 这 些 概率 只 是 针对 于 各 个 单词 而 言 的 。 如 果 所 有 单词 同属 于 一 个 分 类 的 概 
率 值 更 大 ， 那 么 答案 显然 是 很 清楚 的 。 然 而 在 本 例 中 ,“dynamic” 属 于 语言 分 类 的 概率 更 
K, 而 “long” 属 于 蛇 分 类 的 概率 更 大 。 因 此 ， 为 了 真正 对 一 篇 文档 进行 有 效 地 分 类 ， 我们 
需要 一 种 方法 能 将 所 有 特征 的 概率 组 合 到 一 起 ， 形 成 一 个 整体 上 的 概率 。 


解决 这 一 问题 的 一 种 方法 是 利用 我 们 在 第 6 章 中 介绍 过 的 朴素 贝 叶 斯 分 类 器 。 它 是 通过 下 
面 的 公式 将 概率 组 合 起 来 的 ; 

Pr(Category | Document) = Pr(Document | Category) * Pr(Category)/ Pr(Document) 
此 处 ; 

Pr (Document | Category) = Pr(Word! | Category) * Pr(Word2 | Category) *--- 


Pr(Word | Category) 的 取 值 来 自 于 上 表 ， 比 如 : Pr (dynamic | Language) = 0.6, Pr(Category) 
的 取 值 则 等 于 某 个 分 类 出 现 的 总 体 几 率 。 因 为 “language” 有 一 半 的 机 会 都 会 出 现 ， 所 以 
Pr(Language) 的 值 为 0.5。 无 论 是 哪个 分 类 ， 只 要 其 Pr(Category | Document) 的 值 相对 较 高 ， 
它 就 是 我 们 预期 的 分 类 。 


代码 使 用 说 明 

Using Your Code 

为 了 利用 第 6 章 中 构造 的 贝 叶 斯 分 类 器 对 数据 集 进行 分 类 ， 我 们 所 要 做 的 唯一 一 件 事情 就 
是 定义 一 个 特征 提取 函数 ， 该 函数 的 作用 是 将 我 们 用 以 训练 或 分 类 的 数据 转化 成 一 个 特征 


列表 。 在 第 6 章 中 我 们 处 理 的 是 文档 ， 所 以 该 函数 将 字符 串 拆 分 成 了 一 个 个 单词 ， 但 是 也 
可 以 采用 任何 其 他 形式 的 函数 ， 只 要 它 接受 的 是 一 个 对 象 ， 并且 返回 一 个 列表 : 


>>> docclass.getwords('python is a dynamic language') 
{*python': 1, 'dynamic': 1, ‘language’: 1} 


上 述 函 数 可 用 于 创建 一 个 新 的 分 类 器 ， 针 对 字符 串 进行 训练 : 


>>> cl=docclass.naivebayes (docclass.getwords) 
>>> el. setdb('test.db') 
>>> cl.train('pythons are constrictors’, 'snake') 
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>>> cl.train('python has dynamic types', 'language') 
>>> cl.train('python was developed as a scripting language’, 'language') 


然后 进行 分 类 : 
>>> cl.classify(‘dynamic programming') 


u' language’ 
>>> cl.classify('boa constrictors') 
u'snake' 


对 于 人 允许 使 用 的 分 类 数量 ， 此 处 并 没有 任何 的 限制 ， 但 是 为 了 使 分 类 跨 有 一 个 良好 的 表现 ， 
我 们 须要 为 每 个 分 类 提供 大 量 的 样本 。 


优点 和 缺点 


strengths and Weaknesses 


朴素 贝 叶 斯 分 类 器 与 其 他 方法 相 比 最 大 的 优势 或 许 就 在 于 ， 它 在 接受 大 数据 量 训 练 和 查询 
时 所 具备 的 高 速度 。 即 使 选用 超大 规模 的 训练 集 ， 针 对 每 个 项 目 通常 也 只 会 有 相对 较 少 的 
特征 数 ， 并 且 对 项 目的 训练 和 分 类 也 仅仅 是 针对 特征 概率 的 数学 运算 而 已 。 


尤其 当 训 练 量 逐渐 递增 时 则 更 是 如 此 一 一 在 不 借助 任何 旧 有 训练 数据 的 前 提 下 ， 每 一 组 新 
的 训练 数据 都 有 可 能 会 引起 概率 值 的 变化 。( 你 会 注意 到 ， 贝 叶 斯 分 类 器 的 算法 实现 代码 允 
许 我 们 每 次 只 使 用 一 个 训练 项 ， 而 其 他 方法 ， 比 如 决策 树 和 支持 向 量 机 ， 则 须要 我 们 一 次 
性 将 整个 数据 集 都 传 给 它们 。) 对 于 一 个 如 垃圾 邮件 过 着 这 样 的 应 用 程序 而 言 ， 支 持 增 量 式 
训练 的 能 力 是 非常 重要 的 ， 因 为 过 滤 程 序 时 常 要 对 新 到 的 邮件 进行 训练 ， 然 后 必须 即刻 进 
行 相应 的 调整 ， 更 何况 ， 过 滤 程 序 也 未 必 有 权 访 问 已 经 收 到 的 所 有 邮件 信息 。 


朴素 贝 叶 斯 分 类 器 的 另 一 大 优势 是 ， 对 分 类 器 实际 学 习 状 况 的 解释 还 是 相对 简单 的 。 由 于 
每 个 特征 的 概率 值 都 被 保存 了 起 来 ， 因 此 我 们 可 以 在 任何 时 候 查看 数据 库 ， 找 到 最 适合 的 
特征 来 区 分 垃圾 邮件 与 非 垃 圾 邮件 ， 或 是 编程 语言 与 蛇 。 保 存在 数据 库 中 的 这 些 信息 都 很 
有 价值 ， 它 们 有 可 能 会 被 用 于 其 他 的 应 用 程序 ， 或 者 作为 构筑 这 些 应 用 程序 的 一 个 良好 基 
础 。 


朴素 贝 叶 斯 分 类 器 的 最 大 缺陷 就 是 ， 它 无 法 处 理 基于 特征 组 合 所 产生 的 变化 结果 。 假 设 有 
如 下 这 样 一 个 场景 ,我 们 正在 尝试 从 非 垃 圾 邮件 中 鉴别 出 垃圾 邮 御 来 : 假如 我 们 构建 的 是 
一 个 Web 应 用 程序 ， 因 而 单词 “online” 时 常会 出 现在 你 的 工作 邮件 中 。 而 你 的 好 友 则 在 一 
家 药店 工作 ， 并 且 喜 欢 给 你 发 一 些 他 碰巧 在 工作 中 遇 到 的 奇闻 趣事 。 同 时 ， 和 大 多 数 不 善 
于 严密 保护 自己 邮件 地 址 的 人 一 样 ， 偶 尔 你 也 会 收 到 一 封包 含 单词 “online pharmacy” 的 垃 
专 邮 件 。 


也 许 你 已 经 看 出 了 此 处 的 难点 一 一 我 们 往往 会 告诉 分 类 器 “online” 和 “pharmacy” 是 出 现 
在 非 垃圾 邮件 中 的 ， 因 此 这 些 单词 相对 于 非 垃圾 邮件 的 概率 会 更 高 一 些 。 当 我 们 告诉 分 类 
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器 有 一 封包 含 单词 “online pharmacy” 的 邮件 属于 垃圾 邮件 时 ， 则 这 些 单词 的 概率 又 会 进行 
相应 的 调整 ， 这 就 导致 了 一 个 经 常 性 的 矛盾 。 由 于 特征 的 概率 都 是 单独 给 出 的 ， 因 此 分 类 
器 对 于 各 种 组 合 的 情况 一 无 所 知 。 在 文档 分 类 中 ， 这 通常 不 是 什么 大 问题 ， 因 为 一 封包 含 
单词 “online pharmacy” 的 邮件 中 可 能 还 会 有 其 他 特征 可 以 说 明 它 是 垃圾 邮件 , 但 是 在 面 对 
其 他 问题 时 ， 理 解 特征 的 组 合 可 能 是 至 关 重要 的 。 


决策 树 分 类 器 


Decision Tree Classifier 


决策 树 是 在 第 7 章 中 介绍 的 ， 在 那 一 章 我 们 学 到 了 如 何 根据 服务 器 日 志 来 对 用 户 的 行为 进 
行 建 模 。 决 策 树 以 其 极 易 理 解 和 解释 的 特点 而 著称 。 图 12-1 给 出 了 一 个 决策 树 的 例子 。 


No Yes 


daneler > Th? 


No || Yes No || Yes No || Yes 


fauna [ameen [tone= te! Pole hele 


No || Yes No || Yes 





Lemon Grapefruit Grape Cherry 
12-1: 决策 树 的 例子 


图 中 清楚 地 给 出 了 ， 当 对 新 项 目 进行 分 类 时 ， 决 策 树 所 要 做 的 工作 。 从 树 的 根 节点 开始 ， 
我 们 会 对 每 个 节点 的 判断 条 件 进行 检查 一 一 如 果 节 点 的 判断 条 件 满足 ， 就 走 Yes 分 支 ， 否 
则 ， 就 走 No 分 支 。 这 一 过 程 会 一 直 重 复 进行 ， 直 至 到 达 代 表 预 测 分 类 的 那个 叶 节 点 为 止 。 


训练 


Training 


利用 决策 树 进行 分 类 非常 的 简单 ， 但 对 决策 树 进行 训练 则 需要 更 多 的 技巧 。 第 7 章 介 绍 的 
算法 从 根部 开始 构造 决策 树 ， 在 每 一 步 中 它 都 会 选择 一 个 属性 ， 利 用 该 属性 以 最 佳 的 可 能 
方式 对 数据 进行 拆 分 。 为 了 说 明 这 一 点 ， 请 看 如 表 12-3 所 示 的 水 果 数 据 集 。 我 们 将 它 作为 
初始 数据 集 。 


决策 树 分 类 器 | 281 


ww ai bbt. com DOOO000 


表 12-3: 水 果 数 据 









下 经 A a ee aera 
4 TEE Apple 

4 [Gren ‘i 

Rd | Cherry. 

1 Grape 

5 Rd |Appk 


为 了 创建 树 的 根 节点 ， 有 两 个 可 能 的 变量 可 用 于 对 数据 进行 拆 分 ， 它 们 分 别 是 直径 和 颜色 。 
第 一 步 就 是 要 对 每 个 变量 都 进行 尝试 ， 从 中 找 出 拆 分 数据 效果 最 好 的 一 个 。 按 颜色 拆 分 数 
据 集 得 到 的 结果 如 表 12-4 所 示 。 


表 12-4: 按 颜色 拆 分 后 的 水 果 数 据 





Apple Apple 
Cherry Grape 
Apple 


上 述 数 据 仍 然 显得 非常 的 混乱 。 但 是 ， 假 如 我 们 按 直径 (小 于 4 英寸 、 大 于 或 等 于 4 英寸 ) 
进行 拆 分 ， 则 拆 分 得 到 的 结果 就 会 变 得 非常 清晰 (我们 将 左 侧 的 数据 称 为 Subset 1， 右 侧 的 
数据 称 为 Subset 2)。 此 时 的 拆 分 情况 如 表 12-5 所 示 。 


表 12-5: 按 直径 拆 分 后 的 水 果 数 据 





i a Tas) 1 4 hh è ah ELLY gy LR e HSA tray ji f PIE 

5 s "yy si ap s ity aah eet A PRIRA i E 十 直径 >4 菇 tT re dh Cy hi 3 ME Se W a i. i $ 
cheesy Apple 
Grape Apple 


这 显然 是 一 种 更 好 的 拆 分 结果 ， 因 为 Subset 2 包含 来 自 初始 集合 中 的 所 有 “Apple” 条 目 。 
尽管 在 本 例 中 ， 哪 个 变量 的 拆 分 效果 更 好 是 很 明确 的 ， 但 是 当面 对 规模 更 大 一 些 的 数据 集 
时 ， 就 不 会 总 是 有 如 此 清晰 的 拆 分 结果 了 。 为 了 衡量 一 个 拆 分 的 优 劣 ， 第 7 SLA THM 
概念 (代表 一 个 集合 中 无 序 的 程度 ): 


© pti) = frequency(outcome) = count(outcome) / count(total rows) 
e = Entropy = 针对 所 有 结果 的 pi) * log(p( 访 之 和 


RA PR a), 就 意味 着 该 集合 中 的 大 部 分 元 素 都 是 同 质 的 (homogeneous); MSF 0, 
则 代表 集合 中 的 所 有 元 素 都 是 同一 类 型 的 。 表 12-5 中 Subset 2 (直径 >4) MANA O, t 
SEES STR ABE FA GE HM (information gain) 的 ， 信 息 增益 的 定义 如 下 : 
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e weight] = subset] 的 大 小 / 原始 集合 的 大 小 
è weight2 = subset2 的 大 小 / 原始 集合 的 大 小 
èe gain = entropy(original) - weight] *entropy(set]) - weight2*entropy(set2) 


因此 对 于 每 一 种 可 能 的 拆 分 ， 我 们 都 会 计算 出 相应 的 信息 增益 ， 并 以 此 来 确定 拆 分 用 的 变 
量 。 一 旦 用 以 拆 分 的 变量 被 选 定 ， 第 一 个 节点 就 创建 出 来 了 ， 如 图 12-2 所 示 。 


diameter > 4in? 


Cherry (1, Red) 
Grape (1, Green) 


12-2: 水 果 决 策 树 的 根 节 点 


此 处 ， 我 们 将 判断 条 件 显 示 在 了 节点 的 位 置 ， 如 果 数 据 不 满足 判断 条 件 ， 就 会 沿 着 No 分 支 
向 下 走 ， 如 果 满 足 ， 则 会 沿 Yes 分 支 向 下 走 。 因 为 Yes 分 支 现在 仅 有 一 种 可 能 的 结果 ， 因 
此 它 就 成 了 叶 节 点 。No 分 支 依然 显得 有 些 混 乱 ， 因 此 可 以 采用 与 选择 根 节 点 时 完全 相同 的 
办 法 对 其 做 进一步 的 拆 分 。 在 本 例 中 ， 颜 色 现在 成 为 了 拆 分 数据 的 最 佳 变 量 。 这 一 过 程 会 
一 直 重 复 下 去 ， 直 到 在 某 个 分 支 上 拆 分 数据 时 不 会 再 有 信息 增益 为 止 。 





决策 树 分 类 器 使 用 说 明 


Using Your Decision Tree Classifier 


第 7 章 中 决策 树 的 算法 实现 代码 是 基于 一 个 列表 的 列表 进行 训练 的 ， 每 个 内 部 列表 都 包含 
了 一 组 值 ， 其 中 的 最 后 一 个 值 代表 分 类 。 我 们 可 以 按 如 下 所 示 的 方法 来 创建 前 面 那个 简单 
的 水 果 数 据 集 


>>> fruit=[[4,'red','apple'], 
. (4, 'green','apple'], 
. [1, 'red', 'cherry'], 
. [1, 'green', 'grape'], 
- [5, 'red', 'apple']) 


现在 ， 我 们 可 以 对 这 棵 决策 树 进 行 训 练 ， 并 利用 它 对 新 的 样本 进行 分 类 : 


>>> import treepredict 

>>> tree=treepredict.buildtree(fruit) 

>>> treepredict.classify((2,'red'],tree) 
{'cherry': 1} 

>>> treepredict.classify((5, 'red'],tree) 
{'apple': 3} 

>>> treepredict.classify(([1, 'green'],tree) 


{'grape': 1} 
>>> treepredict.classify((120, 'red'],tree) 
{‘apple': 3} 
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很 显然 , 直径 10 英尺 且 颜 色 为 紫色 的 水 果 不 应 该 是 苹果 , 但 决策 树 受 制 于 其 所 见 过 的 样本 。 
最 后 ， 我 们 可 以 将 树 打印 或 绘制 出 来 ， 以 理解 其 决策 的 推导 过 程 : 
>>> treepredict.printtree (tree) 
0:4? 
T-> {'apple': 3} 
F-> l:green? 
T-> {'grape': 1} 
F-> {'cherry': 1} 


优点 和 缺点 
Strengim 


et ie Wie TARTOS 


决策 树 最 为 显著 的 优点 在 于 ， 利 用 它 来 解释 一 个 受训 模型 是 非常 容易 的 ， 而 且 算 法 将 最 为 
重要 的 判断 因素 都 很 好 地 安排 在 了 靠近 树 的 根部 位 置 。 这 意味 着 ， 决 策 树 不 仅 对 分 类 很 有 
价值 ， 而 且 对 决策 过 程 的 解释 也 很 有 帮助 。 和 贝 叶 斯 分 类 器 一 样 ， 可 以 通过 观察 内 部 结构 
来 理解 它 的 工作 方式 ， 同 时 这 也 有 助 于 在 分 类 过 程 之 外 进一步 做 出 其 他 的 决策 。 例 如 , 第 7 
章 中 的 模型 对 哪些 用 户 最 终 会 成 为 付费 客户 进行 了 预测 ， 而 有 了 决策 树 ， 就 可 以 清晰 地 显 
示 出 哪些 变量 是 最 适合 用 于 拆 分 数据 的 ， 这 对 于 规划 广告 策略 ， 以 及 判断 还 应 该 收集 哪些 
数据 而 言 ， 都 是 非常 有 价值 的 。 


因为 决策 树 要 寻找 能 够 使 信息 增益 达到 最 大 化 的 分 界线 ， 因 此 它 也 可 以 接受 数值 型 数据 作 
为 输入 。 能 够 同时 处 理 分 类 (categorical) 数据 和 数值 数据 ， 对 于 许多 问题 的 处 理 都 是 很 有 
帮助 的 一 一 这 些 问 题 往往 是 传统 的 统计 方法 (比如 回归 ) 所 难以 应 对 的 。 另 一 方面 ， 决 策 
树 并 不 擅长 于 对 数值 结果 进行 预测 。 一 棵 回归 树 可 以 将 数据 拆 分 成 一 系列 具有 最 小 方差 的 
均值 ， 但 是 如 果 数 据 非常 复杂 ， 则 树 就 会 变 得 非常 庞大 ， 以 至 于 我 们 无 法 借 此 来 做 出 准确 
的 决策 。 


与 贝 叶 斯 分 类 器 相 比 ， 决 策 树 的 主要 优点 是 它 能 够 很 容易 地 处 理 变 量 之 间 的 相互 影响 。 一 
个 用 决策 树 构建 的 垃圾 邮件 过 滤器 可 以 很 容易 地 判断 出 :“online” 和 “pharmacy” 在 分 开 
时 并 不 代表 垃圾 信息 ， 但 当 它 们 组 合 在 一 起 时 则 为 垃圾 信息 。 


遗憾 的 是 ， 利 用 第 7 章 中 的 算法 所 实现 的 垃圾 邮件 过 滤器 是 不 实用 的 。 很 简单 ， 因 为 它 不 
支持 增 量 式 的 训练 。( 目 前 ， 支 持 增 量 式 训 练 的 决策 树 替代 算法 是 一 个 活跃 的 研究 领域 ) 我 
们 可 以 接受 一 大 堆 邮 件 ， 并 构建 一 棵 用 于 垃圾 邮件 过 滤 的 决策 树 ， 但 是 无 法 对 新 收 到 的 一 
封 邮件 单独 进行 训练 一 一 每 次 训练 都 必须 重新 开始 。 因 为 许多 人 都 有 成 千 上 万 封 邮 件 ， 所 
以 每 次 都 重新 开始 是 不 切实 际 的 。 另 外 ， 因 为 节点 的 数量 有 可 能 会 非常 庞大 【每 一 个 特征 
都 有 可 能 存在 或 缺失 )， 这 些 树 有 可 能 会 变 得 异常 庞大 而 复杂 ， 这 会 导致 分 类 效率 的 降低 。 
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第 4 章 向 大 家 介绍 了 如 何 根据 用 户 以 往 点 击 的 链接 简单 构建 一 个 神经 网 络 ， 用 以 对 搜索 结 
果 的 排名 进行 调整 。 神 经 网 络 可 以 识别 出 哪些 单词 的 组 合 是 重要 的 ， 以 及 哪些 单词 对 于 某 
次 查询 是 不 重要 和 的。 我 们 不 仅 可 以 将 神经 网 络 用 于 分 类 ， 还 可 以 将 其 用 于 数值 预测 问题 。 


第 4 章 中 的 神经 网 络 被 当 作 了 分 类 器 一 一 它 针对 每 个 链接 给 出 一 个 数字 ， 并 预测 数字 最 大 
者 将 会 是 用 户 要 点 击 的 链接 。 由 于 算法 为 每 个 链接 都 给 出 了 一 个 数字 ， 因 此 可 以 利用 所 有 
这 些 数 字 来 改变 搜索 结果 的 排名 。 


有 许多 不 同 种 类 的 神经 网 络 。 本 书 涉及 的 神经 网 络 被 称 为 多 层 感知 器 网 络 (multilayer 
perceptron network) ， 之 所 以 这 样 命名 是 因为 它 包含 一 层 输入 神经 元 (input neurons)， 这 些 
神经 元 会 将 输入 传递 给 一 层 或 多 层 隐 弓 神经 元 (hidden neurons)。 其 基本 结构 如 图 12-3 所 
示 。 





12-3; 基本 的 神经 网 络 结构 


上 述 网 络 有 两 层 神经 元 。 层 与 层 之 间 通 过 突 触 (synapse) 彼此 相连 ， 每 个 突 触 都 有 一 个 与 
之 关联 的 权重 。 一 组 神经 元 的 输出 是 通过 突 触 传人 下 一 层 的 。 如 果 从 一 个 神经 元 指向 下 一 
个 神经 元 的 突 触 权重 越 大 ， 那 么 它 对 神经 元 输出 的 影响 也 就 越 大 。 


作为 一 个 简单 的 例子 ， 我 们 再 来 回顾 一 下 前 述 “ 贝 叶 斯 分 类 器 ”一 节 中 提 到 的 垃圾 邮件 过 
滤 问 题 。 在 简化 了 的 邮件 场景 中 ， 一 封 邮件 可 能 会 包含 单词 “online”"、“pharmacy”， 或 二 
者 的 组 合 。 为 了 判断 哪些 邮件 是 垃圾 邮件 ， 我 们 有 可 能 要 用 到 一 个 如 下 页 图 12-4 所 示 的 神 
经 网 络 。 


在 上 图 中 ， 为 了 解决 垃圾 邮件 的 问题 ， 我 们 已 将 突 触 的 权重 都 设置 好 了 (我 们 将 在 下 一 节 
中 了 解 到 这 些 突 触 的 设置 方法 )。 位 于 第 一 层 中 的 神经 元 对 于 用 作 输 入 的 单词 给 予 响 应 一 一 
如 果 某 个 单词 存在 于 邮件 信息 中 ， 则 与 该 单词 关联 最 强 的 神经 元 就 会 被 激活 。 第 二 层 神经 
元 接受 第 一 层 神 经 元 的 输入 ， 因 此 它 会 对 单词 的 组 合 给 予 响应 。 最 后 ， 这 些 神经 元 会 将 结 
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Online 


Pharmacy 





12-4: 用 于 垃圾 分 类 的 神经 网 络 


果 输 出 ， 而 某 些 单词 的 组 合 则 或 许 会 与 所 有 可 能 的 结果 形成 “ 强 ”关联 或 “ 弱 ” 关 联 。 最 
终 的 决策 结论 ， 就 是 要 判定 哪 一 个 输出 最 强 。 图 12-5 给 出 了 单词 “online” 在 没有 单词 
“pharmacy” 跟 随 的 情况 下 ， 神 经 网 络 对 其 反应 的 情况 。 


Online —--__.__— 


Pharmacy 





图 12-5; 神经 网 络 对 单词 “online” 作 出 的 反应 


位 于 第 一 层 中 的 某 个 神经 元 对 “online” 给 予 了 响应 ， 并 且 将 其 输出 至 第 二 层 ， 而 位 于 第 二 
层 中 的 某 个 神经 元 则 已 经 学 会 了 识别 仅 包 含 单词 “online” 的 邮件 。 该 神经 元 有 一 个 指向 非 
垃圾 邮件 的 突 触 ， 其 所 拥有 的 权重 值 要 比 指向 垃圾 邮件 的 突 触 更 大 ， 因 此 邮件 最 终 被 归 类 
为 非 垃圾 邮件 。 下 页 图 12-6 给 出 了 单词 “online” 在 和 “pharmacy” 一 起 被 传人 神经 网 络 时 
所 发 生 的 状况 。 


因为 位 于 第 一 层 中 的 神经 元 是 对 单个 单词 给 予 响应 的 ， 所 以 这 次 有 两 个 神经 元 都 被 激活 了 。 
到 了 第 二 层 ， 情 况 变 得 更 有 意思 。 pharmacy” 的 存在 对 “online” 产 生 了 消极 的 影响 
第 一 层 中 两 个 神经 元 的 共同 作用 会 激活 第 二 层 中 间 的 那个 神经 元 ， 该 神经 元 经 过 训练 之 后 
会 对 “online” 和 “pharmacy” 出 现在 一 起 的 情况 给 予 响应 。 由 于 该 神经 元 非常 明确 地 指向 
垃圾 邮件 分 类 ， 因 此 邮件 就 被 归 类 成 了 垃圾 邮件 。 这 个 例子 说 明了 ， 多 县 神经 网 络 可 以 非 
常 轻松 地 处 理 代表 不 同事 物 的 各 种 特征 的 不 同 组 合 。 
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Online 





12-6: 神经 网 络 对 “online pharmacy” 作 出 的 反应 


训练 神经 网 络 


Training a Neural Network 


在 前 述 的 例子 中 ， 神 经 网 络 已 经 为 每 个 突 触 都 设置 了 相应 的 权重 。 神 经 网 络 的 真正 威力 在 
于 ， 它 们 可 以 从 随机 的 权重 值 开始 ， 然 后 通过 训练 不 断 地 从 样本 中 得 到 学 习 。 训 练 多 层 感知 
器 网 络 最 为 常见 的 方法 ,也 是 在 第 4 章 中 介绍 的 方法 ， 被 称 为 反 向 传播 法 (backpropagation ) 。 


为 了 利用 反 向 传播 法 对 网 络 展开 训练 ， 首 先 从 一 个 样本 (比如 单词 “online”) 及 其 正确 答 
案 (本 例 中 为 非 垃 圾 邮件 ) 开始 。 随 后 ， 将 样本 送 入 神经 网 络 ， 观 察 其 当前 的 推测 结果 。 


开始 的 时 候 ， 网 络 也 许 会 为 垃圾 邮件 赋予 一 个 比 非 垃圾 邮件 更 高 一 些 的 权重 ， 这 是 不 正确 
的 。 为 了 修正 这 一 错误 ,我 们 告诉 网 络 , 垃圾 邮件 的 权重 应 该 更 接近 于 0， 而 非 垃圾 邮件 则 
应 该 更 接近 于 1。 指向 垃圾 邮件 的 突 触 权重 , 会 根据 每 个 隐藏 屋 节 点 的 贡献 程度 相应 地 做 向 
下 微调 ， 而 指向 非 垃 圾 邮件 的 权重 则 会 做 向 上 微调 。 介 于 输入 层 与 隐藏 层 之 间 的 突 触 权 重 ， 
也 会 根据 其 对 输出 层 中 的 重要 节点 的 贡献 程度 进行 相应 的 调整 。 


关于 上 述 调 整 的 实际 公式 已 在 第 4 章 中 给 出 。 为 了 防止 网 络 在 接受 有 噪声 干扰 或 不 确定 性 
数据 作为 训练 数据 时 所 作出 的 过 度 补 偿 反 应 (overcompensate)， 整 个 训练 过 程 将 会 缓慢 地 
进行 。 如 此 ， 网 络 看 到 某 个 样本 的 次 数 越 多 ， 对 其 分 类 的 效果 就 会 越 好 。 


神经 网 络 代码 使 用 说 明 


Using Your Neural Network. Code 


用 第 4 章 中 的 代码 来 解决 上 述 问题 是 非常 简单 的 。 唯 一 的 技巧 在 于 ， 代 码 不 直接 接受 单词 
作为 输入 ， 而 是 使 用 数字 ID。 因 此 我 们 须要 为 每 一 个 可 能 的 输入 赋予 一 个 数字 。 代 码 使 用 
一 个 数据 库 来 保存 训练 数据 ， 因 此 它 只 要 打开 一 个 指定 名 称 的 数据 文件 ， 就 可 以 开始 训练 
Ts 
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>>> import nn 

>>> online,pharmacy=1,2 

>>> spam,notspam=1,2 

>>> possible=[spam,notspam] 

>>> neuralnet=nn.searchnet ('nntest.db') 

>>> neuralnet.maketables () 

>>> neuralnet.trainquery ( [online] ,possible,notspam) 
>>> neuralnet.trainquery ([online, pharmacy] ,possible, spam) 
>>> neuralnet.trainquery( [pharmacy] , possible, notspam) 
>>> neuralnet.getresult([online,pharmacy] , possible) 
{0.7763, 0.2890) 

>>> neuralnet.getresult( [online] ,possible) 

(0.4351, 0.1826] 

>>> neuralnet.trainquery ( [online] ,possible,notspam) 
>>> neuralnet.getresult([online] ,possible) 

(0.3219, 0.5329] 

>>> neuralnet.trainquery([online] ,possible,notspam) 
>>> neuralnet.getresult( [online] ,possible) 

(0.2206, 0.6453] 


你 会 发 现 ， 神 经 网 络 接受 训练 的 次 数 越 多 ， 其 给 出 的 结果 就 越 准确 。 而 且 它 还 能 处 理 偶 尔 
出 现 的 错误 样本 ， 并 依然 保持 良好 的 预测 能 力 。 


优点 和 缺点 


Strengths and Weaknesses 


神经 网 络 的 主要 优点 是 它们 能 够 处 理 复杂 的 非 线 性 函数 ， 并 且 能 发 现 不 同 输入 间 的 依赖 关 
系 。 尽管 前 面 的 例子 只 给 出 了 1 或 0 (代表 存在 或 缺失 ) 这 样 的 数字 输入 ， 但 是 任何 数字 都 
是 可 以 用 作 输 入 的 ， 并 且 网 络 也 可 以 将 评估 所 得 的 数字 作为 输出 。 


神经 网 络 也 允许 增 量 式 训练 ， 并 且 通 常 不 要 求 大量 空 间 来 保存 训练 模型 ， 因 为 它们 须要 保 
存 的 仅仅 是 一 组 代表 突 触 权重 的 数字 而 已 。 同 时 ， 也 没有 必要 保留 训练 后 的 原始 数据 ， 这 
意味 着 ， 可 以 将 神经 网 络 用 于 不 断 有 训练 数据 出 现 的 应 用 之 中 。 


神经 网 络 的 主要 缺点 在 于 它 是 一 种 黑 盒 方法 。 此 处 给 出 的 例子 设计 简单 ， 也 很 容易 理解 。 
但 在 现实 中 ， 一 个 网 络 也 许 会 有 数 百 个 节点 和 上 千 个 突 触 ， 这 使 我 们 很 难 确 知 网 络 何以 得 
到 最 终 的 答案 。 可 是 无 法 确 知 推导 的 过 程 对 于 某 些 应 用 而 言 ， 也 许 是 一 个 很 大 的 阻碍 。 


神经 网 络 的 另 一 个 缺点 是 ， 在 选择 训练 数据 的 比率 及 与 问题 相 适应 的 网 络 规模 方面 ， 并 没 
有 明确 的 规则 可 以 遵循 。 最 终 的 决定 往往 须要 依据 大 量 的 试验 。 选 择 过 高 的 训练 数据 比率 ， 
有 可 能 会 导致 网 络 对 噪音 数据 产生 过 度 归 纳 (overgeneralize) 的 现象 ,而 选择 过 低 的 训练 比 
率 ， 则 意味 着 除了 我 们 给 出 的 已 知 数据 外 ， 网 络 有 可 能 就 不 会 再 进一步 学 习 了 。 
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支持 问 量 机 


Support-Vector Machines 


支持 向 量 机 (SVM) 是 在 第 9 章 介 绍 的 ， 它 有 可 能 是 本 书 中 所 提 到 的 最 为 复杂 的 一 种 分 类 
方法 。SVM 接受 数据 集 作为 数字 输入 ， 并 尝试 预测 这 些 数 据 属 于 哪个 分 类 。 例 如 ， 也 许 我 
们 希望 通过 一 组 有 关 身高 和 跑 动 速度 的 数据 来 确定 一 支 篮球 队 的 队员 站 位 。 为 了 简化 起 见 ， 
此 处 我 们 只 考虑 两 种 情况 一 一 前 场 的 位 置 需要 身材 高 大 的 队员 ， 而 后 场 的 位 置 则 需要 跑 得 
更 快 的 队员 。 


SVM 是 通过 寻找 介 于 两 个 分 类 间 的 分 界线 来 构建 预测 模型 的 。 如 果 将 一 组 身高 与 速度 的 对 
应 值 以 及 每 个 人 的 最 佳 站 位 在 图 上 绘制 出 来 ， 就 会 得 到 如 图 12-7 所 示 的 结果 。 其 中 ， 前 场 
队员 以 X 显示 ， 后 场 队 员 以 O 显示 。 除 此 以 外 ， 图 上 还 有 若干 条 直线 ， 将 数据 拆 成 了 两 个 
分 类 。 





12-7; 篮球 队员 及 分 界线 的 示意 图 


通过 支持 向 量 机 找到 的 分 界线 ， 能 够 非常 清晰 地 对 数据 进行 划分 ， 这 意味 着 分 界线 与 处 于 
其 附近 的 坐标 点 彼此 间 达 到 了 最 大 可 能 距离 。 在 图 12-7 中 ， 尽 管 所 有 线条 都 可 以 对 数据 进 
行 划分 ， 但 其 中 表现 最 好 的 则 是 标记 为 “最 佳 ”的 那 条 直线 。 确 定 这 条 分 界线 所 在 位 置 唯 
一 需要 的 坐标 点 ， 是 距离 它 最 近 的 那些 点 ， 这 些 点 被 称 为 支持 向 量 。 


当 分 界线 找到 以 后 ， 对 新 项 目的 分 类 只 须 简单 地 将 其 绘制 在 图 上 ， 并 观察 其 落 在 线 的 哪 一 
侧 即 可 。 而 且 ， 一 旦 找到 了 这 条 分 界线 ， 对 新 坐标 点 的 分 类 就 不 必 再 去 考查 训练 数据 了 ， 
因此 分 类 的 速度 非常 快 。 
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核 技法 


The Kernel Trick 


与 其 他 借助 于 向 量 点 积 运算 的 线性 分 类 器 一 样 ， 支 持 向 量 机 通常 会 借助 于 一 种 叫做 核 技法 
(kernel trick) 的 技术 。 为 了 理解 这 一 点 ， 假 设 我 们 所 要 预测 的 分 类 不 是 队员 的 站 位 ， 而 是 
要 判断 队员 是 否 适合 于 一 支 站 位 经 常 不 定 的 业余 球 队 ， 此 时 的 情况 又 会 如 何 呢 ? 这 个 问题 
更 加 值得 关注 ， 因 为 此 时 的 划分 已 不 再 是 线性 的 了 。 我 们 不 想 要 身材 太 高 或 速度 太 快 的 队 
员 ， 因 为 他 们 的 存在 会 使 比赛 对 其 他 人 而 言 难度 太 大 ， 但 是 我 们 同样 也 不 希望 队员 的 身材 
KERRE. mE 12-8 所 示 ， 图 中 O 表示 队员 对 球 队 是 合适 的 ，X 则 表示 不 合适 。 





12-8: 业余 篮球 队 的 队员 示意 图 


在 图 上 我 们 找 不 到 任何 可 以 划分 数据 的 直线 ， 因 此 在 设 有 按 某 种 方式 对 数据 采取 变换 之 前 ， 
我 们 是 无 法 利用 线性 分 类 器 来 找到 有 效 划 分 的 。 解 决 这 一 问题 的 一 种 方法 是 ， 通 过 在 各 个 
轴 向 上 施 以 不 同 的 函数 ， 将 数据 变换 到 另 一 个 不 同 的 空间 中 一 一 也 许 是 一 个 超过 二 维 的 空 
间 。 在 本 例 中 ， 我 们 可 以 令 身 高 和 速度 减 去 各 自 的 平均 值 ， 然 后 再 对 两 者 求 平方 ， 以 此 来 
构造 一 个 新 的 空间 。 如 下 页 图 12-9 所 示 。 


上 述 方法 被 称 作 多 项 式 变换 (polynomial transformation) ， 它 在 不 同 轴 向 上 对 数据 进行 了 变 
换 。 现 在 ， 我 们 很 容易 就 能 分 辨 出 ， 在 适合 球 队 与 不 适合 球 队 的 队员 之 间 存 在 着 一 条 分 界 
线 ， 这 条 线 是 可 以 用 线性 分 类 器 找到 的 。 此 时 ， 对 于 新 坐标 点 的 分 类 ， 只 须 将 人 标点 变换 
到 这 一 空间 ， 然 后 再 观察 其 落 在 线 的 哪 一 侧 即 可 。 
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12-9: 位 于 多 项 式 空间 中 的 篮球 队员 


在 本 例 中 ， 坐 标点 的 变换 非常 成 功 ， 但 是 在 大 多 数 时 候 ， 为 了 找到 分 界线 ， 往 往 要 将 坐标 
点 变换 到 更 为 复杂 的 空间 。 这 些 空间 的 维度 有 的 是 上 千 维 ， 有 的 甚至 是 无 限 维 的 ， 因 此 在 
现实 中 进行 这 样 的 变换 并 不 总 是 可 行 的。 这 便 是 核 技 法 的 用 武之 地 一 一 不 再 进行 空间 的 变 
换 ， 而 是 用 一 个 新 的 函数 来 取代 原来 的 点 积 函 数 ， 该 函数 会 在 数据 被 变换 到 另 一 个 不 同 的 
空间 之 后 ， 返 回 相应 的 点 积 结果 。 例 如 ， 我 们 不 再 进行 如 上 所 示 的 多 项 式 变换 ， 而 是 将 ; 


dotproduct (A,B) 


PER AK : 


dotproduct (A,B) **2 


在 第 9 章 ， 我 们 构造 过 一 个 利用 群 组 均值 的 简单 线性 分 类 器 。 后 来 我 们 还 对 分 类 器 进行 了 
改造 ， 将 点 积 函数 替换 为 支持 向 量 组 合 的 其 他 函数 ， 从 而 使 非 线性 问题 也 得 到 了 解决 。 





LIBSVM 使 用 说 明 
Using LIBSVM 


第 9 章 曾经 介绍 过 一 个 叫做 LIBS VM 的 函数 库 。 我 们 可 以 利用 它 对 一 个 数据 集 进 行 训练 ( 即 
在 经 过 变换 的 空间 中 找到 分 界线 ) ， 然 后 再 对 新 的 观测 数据 进行 分 类 ， 


>>> from random import randint 

>>> # 随机 生成 200 个 坐标 点 

>>> dl=([randint (-20,20),randint(-20,20))} for i in range(200)] 
>>> # MRUMATPA, wRERAUFOAWMA1, FAAO 

>>> resulte[(x**2+y**2)<144 and 1 or 0 for (x,y) in di] 

>>> from svm import * 
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>>> prob=svm_problem(result,d1l) 

>>> param=svm_ parameter (kernel _ type=RBF) 
>>> m=svm_model (prob, param) 

>>> m.predict([2,2]) 

1.0 

>>> m.predict([14,13]) 

0.0 

>>> m,predict ([-18,0)) 

0.0 


LIBSVM 支持 许多 不 同 的 核 函 数 ， 并 且 对 于 一 个 给 定 的 数据 集 ， 可 以 轻松 地 选择 不 同 的 参 
数 ， 以 尝试 各 种 不 同 的 方法 ， 并 从 中 找 出 表现 最 佳 者 。 为 了 测试 一 个 模型 的 表现 ， 可 以 试 
一 试 cross_validation 函数 ,该 函数 接受 一 个 参数 n， 并 将 数据 集 划分 成 n 个 子 集 。 随 后 
函数 会 分 别 将 每 个 子 集 当 作 测 试 集 ， 并 利用 所 有 剩余 的 子 集 对 模型 加 以 训练 。 该 函数 最 后 
会 返回 一 个 包含 答案 的 列表 ， 可 以 将 其 与 原始 列表 进行 比较 : 

>>> guesses=cross validation (prob,param,4) 


>>> sum([abs(guesses[i)-result[i]) for i in range (len (guesses))]) 
28.0 


当面 对 一 个 新 的 问题 时 ， 可 以 利用 不 同 的 参数 来 尝试 不 同 的 核 函 数 ， 以 此 来 寻找 能 够 给 出 
最 佳 结果 的 方案 。 具 体 情况 可 能 会 因数 据 集 的 不 同 而 不 同 ， 在 我 们 得 到 结论 之 后 ， 就 可 以 
利用 相应 的 参数 来 构造 模型 ， 对 新 的 观测 数据 进行 分 类 。 在 实践 中 ， 我 们 也 许 会 建立 一 些 
嵌 套 循环 以 尝试 不 同 的 参数 值 ， 并 记录 下 给 出 最 佳 结果 的 参数 组 合 。 


优点 和 缺点 


i We 
Strenatins and Weakness 


支持 向 量 机 是 一 种 功能 强大 的 分 类 器 ， 一 旦 得 到 了 正确 的 参数 ， 这 种 分 类 器 的 执行 效果 ， 
与 本 书 中 所 提 及 的 其 他 任何 一 种 分 类 方法 相 比 ， 有 可 能 会 不 相 上 下 或 更 胜 一 筹 。 而 且 在 接 
受训 练 之 后 ， 它 们 在 对 新 的 观测 数据 进行 分 类 时 速度 极 快 ， 这 是 因为 分 类 时 只 须 判断 坐标 
点 位 于 分 界线 的 哪 一 侧 即 可 。 通 过 将 分 类 输入 (categorical inputs) 转换 成 数值 输入 ， 可 以 
令 支 持 向 量 机 同时 支持 分 类 数据 和 数值 数据 。 


支持 向 量 机 的 一 个 缺点 在 于 ， 针 对 每 个 数据 集 的 最 佳 核 变换 函数 及 其 相应 的 参数 都 是 不 一 
样 的 ， 而 且 每 当 遇 到 新 的 数据 集 时 都 必须 重新 确定 这 些 函 数 及 其 参数 。 在 可 能 的 取 值 范围 
内 进行 循环 遍历 会 有 助 于 这 一 问题 的 解决 ， 但 是 这 要 求 我 们 有 足够 大 的 数据 集 来 完成 可 靠 
的 交叉 检验 。 一 般 而 言 ，SVM 更 适合 于 那些 包含 大 量 数 据 的 问题 ， 而 其 他 方法 ， 如 决策 树 ， 
则 更 适合 于 小 规模 的 数据 集 ， 并 且 这 些 方法 还 能 从 数据 集中 得 到 很 有 价值 的 信息 。 


如 同 神经 网 络 ，SVM 也 是 一 种 黑 盒 技术 一 一 实际 上 , 由 于 存在 向 高 维 空间 的 变换 , SVM 的 
分 类 过 程 甚至 更 加 难于 解释 。SVM 也 许 会 给 出 很 好 的 答案 ， 但 是 我 们 永远 都 无 法 得 知 找到 
答案 的 真正 原因 。 
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k- 最 近邻 

k-Nearest NetqPbO 

在 第 8 章 我 们 讨论 了 ， 如 何 利用 一 种 称 为 k- 最 近邻 (KNN) 的 算法 进行 数值 预测 ， 并 利用 
这 一 算法 示范 了 ， 如 何 针 对 一 组 给 定 的 样本 来 构造 价格 预测 模型 。 我 们 在 第 2 章 中 介绍 过 


的 ， 用 于 预测 人 们 对 影片 或 链接 的 喜好 程度 的 推荐 算法 ， 同 样 也 是 KNN 算法 的 一 个 简化 版 
本 。 


KNN 的 工作 原理 ， 是 接受 一 个 用 以 进行 数值 预测 的 新 数据 项 ， 然 后 将 其 与 一 组 已 经 赋 过 值 
的 数据 项 进行 比较 。 算 法 会 从 中 找 出 与 待 预 而 数据 项 最 为 接近 的 若干 项 ， 并 对 其 求 均值 以 
得 到 最 终 的 预测 结果 。 表 12-6 列 出 了 一 组 数码 相机 及 其 百 万 像素 数 、 变 焦 能 力 、 销 售 价格 
等 的 信息 。 


表 12-6: 数码 相机 及 其 价格 
Sia res: S: i 


C5 





假定 我 们 想 推 测 一 款 拥 有 6 百 万 像素 和 6 倍 变焦 透镜 的 新 相机 的 价格 。 首 先 要 做 的 第 一 件 
事情 就 是 寻找 一 种 方法 能 够 对 两 个 数据 项 的 近似 程度 进行 度量 。 第 8 章 曾 经 用 过 欧 几 里 德 
距离 , 而 且 我 们 也 曾 在 本 书 中 见 过 许多 其 他 的 距离 度量 方法 , 比如 皮尔 还 相关 度 和 Tanimoto 
分 值 。 本 例 所 采用 的 是 欧 儿 里 德 距离 ， 借 此 我 们 发 现 表 中 最 为 接近 的 一 项 是 C3。 为 了 使 这 
一 结论 可 视 化 ， 假 设 将 这 些 数据 项 绘制 到 一 张 以 百 万 像素 数 为 x 轴 ， 以 焦距 为 y 轴 的 二 维 
图 上 。 每 个 数据 项 本 身 则 以 其 相应 的 价格 加 以 标识 ， 结 果 如 下 页 图 12-10 所 示 。 


也 许 你 可 以 接受 349 美元 这 样 的 价格 作为 答案 (毕竟 这 是 最 为 接近 的 匹配 ) ， 但 是 我 们 无 法 
得 知 这 是 否 只 是 一 个 例外 情况 。 有 鉴于 此 ， 最 好 选择 多 个 最 佳 匹配 ， 然 后 再 对 它们 求 均 值 。 
k- 最 近邻 算法 中 的 kx， 指 的 就 是 用 于 求 均值 的 最 佳 匹 配 数 。 例 如 ， 如 果 选 择 三 个 最 佳 匹配 ， 
并 对 它们 求 均 值 ， 那 么 kNN 中 的 k 即 为 3。 


对 基本 均值 运算 的 一 个 扩展 ， 是 根据 近邻 之 间距 离 远近 的 程度 进行 加 权 平均 。 距 离 非常 接 
近 的 近邻 会 比 距离 稍 远 者 拥有 更 高 的 权重 值 。 权 重 与 总 的 距离 成 正比 。 第 8 章 曾经 介绍 过 
确定 权重 的 各 种 不 同 的 函数 。 在 本 例 中 ， 我 们 也 许 会 对 349 美元 的 价格 赋 以 最 大 的 权重 ， 
而 两 个 399 美元 则 会 赋 以 相对 较 小 的 权重 。 例 如 


price = 0.5 * 349 + 0.25 * 399 + 0.25 * 399 = 374 


k- 最 近邻 | 293 
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12-10: 在 焦距 - 百 万 像素 数 空间 中 的 相机 价格 


变量 缩放 及 多 余 变量 


Scaling and Superfluous Variables 


迄今 为 止 我 们 讨论 的 KNN 算法 存在 着 一 个 很 大 的 问题 ， 那 就 是 它 在 计算 距离 时 考虑 了 所 有 
的 变量 。 这 意味 着 ， 如 果 这 些 变 量 衡量 的 是 不 同 的 事物 ， 而 其 中 某 个 变量 的 取 值 又 比 其 他 
变量 大 很 多 时 ， 则 该 变量 会 对 “接近 ”的 含义 形成 非常 大 的 影响 。 试 想 一 下 ， 如 果 上 述 数 
据 集 是 按 像素 数 而 非 百 万 像素 数 给 出 分 辩 率 一 相差 10 倍 的 变焦 对 于 相机 价格 造成 的 影 
响 , 理应 要 比 相差 10 个 像素 的 分 辩 率 大 许多 , 但 是 现在 它们 会 被 视 作 效果 相当 。 除 此 以 外 ， 
有 时 数据 集中 还 会 包含 一 些 对 预测 结果 完全 不 起 任何 作用 的 变量 ， 但 是 它们 仍然 会 对 距离 
的 计算 构成 影响 。 


上 述 问题 可 以 通过 在 计算 距离 之 前 对 数据 进行 调整 来 加 以 解决 。 在 第 8 章 中 ， 我 们 给 出 了 
一 种 数据 调整 的 方法 ， 该 方法 对 某 些 变量 的 数值 进行 了 放大 ， 而 对 其 他 变量 则 做 了 缩小 。 
由 于 完全 不 起 作用 的 变量 都 被 乘 以 了 0, 因而 这 些 变量 对 结果 不 再 构成 任何 的 影响 。 那 些 有 
价值 但 值 域 范 围 差 别 很 大 的 变量 ， 则 被 缩放 到 了 更 具 可 比 性 的 程度 一 一 或 许 我 们 会 将 2 000 
像素 的 差异 与 1 倍 变焦 的 差异 视 作 等 同 。 


因为 对 数据 的 缩放 量 取决 于 具体 的 应 用 ， 所 以 可 以 通过 对 预测 算法 实施 交叉 验证 ,来 判断 
一 组 缩放 因子 的 优 劣 程度 。 交 又 验证 的 做 法 是 ， 先 从 数据 集中 去 除 一 部 分 数据 ,然后 再 利 
用 剩余 数据 来 推测 出 这 部 分 数据 , 算法 会 尝试 对 推测 的 效果 进行 评估 。 下 页 图 12-11 给 出 了 
交叉 验证 的 工作 原理 。 
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BARR 自 万 像素 数 


采用 k=2; 
推测 值 = $399 与 $5299 的 平均 值 = $349 


误差 = (推测 值 - 实际 值 ) = ($349 - $349)*=0 





12-11: 针对 某 项 数据 的 交叉 验证 


通过 对 许多 不 同 的 缩放 因子 进行 交叉 验证 ， 我 们 可 以 得 到 针对 每 一 项 数据 的 误差 率 ， 利 用 
这 一 误差 率 ， 可 以 判断 出 : 哪些 缩放 因子 应 该 被 用 于 对 新 数据 的 预测 。 


kNN 代码 使 用 说 明 


Using Your kNN Code 


在 第 8 章 中 ， 我 们 给 出 了 实现 KNN 和 加 权 kNN 算法 的 函数 。 将 这 些 代 码 用 于 第 293 页 表 
12-6 给 出 的 示例 数据 集 是 非常 简单 的 。 


>>> cameras=[{'input':(7.1,3.8), 'result':399}, 
{*input': (5.0,2.4), ‘result’ :299}, 
se {*input':(6.0,4.0), 'result':349}, 
so {‘input': (6.0,12.0), 'result':399}, 
... {'input': (10.0,3.0),'result':449}] 
>>> import numpredict 
>>> numpredict (cameras, (6.0,6.0),k=2) 
374.0 
>>> numpredict .weightedknn (cameras, (6.0,6.0),k=3) 
351.52666892719458 


对 数据 的 缩放 可 以 有 效 改 善 最 终 的 结果 。rescale 函数 可 以 完成 这 一 任务 : 


>>> sccenumpredict.rescale(cameras, (1,2)) 

>>> scc 

({*input’: [7.1, 7.6], ‘result': 399}, {‘input': (5.0, 4.8], ‘result': 299}, 
{'‘input': [6.0, 8.0], 'result': 349}, {'input': (6.0, 24.0], *result': 399}, 
{'input': [10.0, 6.0], 'result': 449}] 


通过 使 用 crossvalidate， 我 们 可 以 找 出 表现 最 好 的 缩放 因子 : 


>>> numpredict .crossvalidate(knn1,cameras,test=0.3,trials=2) 
3750.0 

>>> numpredict.crossvalidate(knnl,scc,test<0.3,trials=2) 
2500.0 
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随 着 数据 集 拥 有 的 变量 越 来 越 多 ， 寻 找 合适 的 缩放 因子 也 会 变 得 越 来 越 乏 味 ， 因 此 我 们 可 
以 通过 循环 遍历 所 有 数值 来 寻找 最 佳 的 结果 ， 或 者 ， 如 第 8 章 那 样 ， 借 助 于 某 种 优化 算法 。 


Katina 


C X thy Sr Aaa tirz a 
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能 够 利用 复杂 函数 进行 数值 预测 , 同时 又 保持 简单 易 懂 的 特点 , k- 最 近邻 技术 便 是 少数 几 种 
具备 如 是 特征 的 算法 之 一 。kKNN 算法 的 推导 过 程 很 容易 理解 ， 并 且 只 要 对 代码 稍 做 修改 ， 
就 可 以 清晰 地 观察 到 计算 过 程 中 到 底 使 用 了 哪些 近邻 。 神 经 网 络 也 是 利用 复杂 函数 进行 数 
值 预测 的 ， 但 是 它们 显然 无 法 为 我 们 提供 类 似 的 例子 来 帮助 理解 推导 的 过 程 。 


不 仅 如 此 ， 确 定 合理 的 数据 缩放 量 不 但 可 以 改善 预测 的 效果 ， 而 且 还 可 以 告诉 我 们 预测 过 
程 中 各 个 变量 的 重要 程度 。 任 何 被 缩小 至 0 的 变量 都 会 被 舍弃 。 有 些 时 候 ， 数 据 的 收集 也 
许 是 十 分 困难 或 代价 高 兄 的 ， 而 此 时 ， 知 道 有 些 变 量 对 结果 没有 任何 影响 ， 也 许 会 在 日 后 
为 我 们 省 去 不 少 的 时 间 和 金钱 。 


kNN 是 一 种 在 线 (online) 技术 ， 这 意味 着 新 的 数据 可 以 在 任何 时 候 被 添加 进来 ， 这 一 点 不 
同 于 以 支持 向 量 机 为 代表 的 一 类 技术 , 后 者 在 数据 改变 之 后 必须 重新 进行 训练 。 而 对 于 KNN 
而 言 ， 添 加 新 的 数据 根本 不 须要 进行 任何 的 计算 ， 只 要 将 数据 添加 到 集合 中 即 可 。 


KNN 主要 的 缺点 在 于 ， 为 了 完成 预测 ， 它 要 求 所 有 的 训练 数据 都 必须 缺 一 不 可 。 面 对 拥有 
上 百 万 样本 的 数据 集 ， 这 不 仅 在 空间 上 会 有 问题 ， 在 时 间 上 也 是 一 个 问题 一 一 为 了 找到 最 
为 接近 的 数据 项 ， 每 一 项 待 预 测 的 数据 都 必须 和 所 有 其 他 数据 项 进行 比较 。 这 一 过 程 对 于 
某 些 应 用 而 言 也 许 会 显得 非常 低 效 。 


KNN 的 另 一 个 缺点 是 ， 寻 找 合 理 的 缩放 因子 可 能 是 一 项 乏味 的 工作 。 尽 管 有 不 少 方法 可 以 
令 这 一 过 程 更 趋 于 自动 化 ， 但 是 当面 对 一 个 规模 庞大 的 数据 集 时 ， 为 数 以 千 计 的 缩放 因子 
实施 评估 和 交叉 验证 ， 是 一 项 计算 量 非 常 巨 大 的 工作 。 如 果 有 许多 不 同 的 变量 等 待考 查 ， 
那么 我 们 也 许 就 须要 对 数 百 万 个 不 同 的 缩放 因子 进行 尝试 ， 直 到 找到 正确 的 因子 为 止 。 


RX 


Clustering 





分 级 聚 类 和 K- 均 值 泰 类 都 属于 非 监督 学 习 技 术 ， 即 ， 它 们 不 要 求 训 练 用 的 数据 样本 ， 因 为 
这 些 方法 不 是 用 来 做 预测 的 。 在 第 3 章 中 ， 我 们 讨论 了 如 何 选择 一 组 热门 博客 并 自动 对 其 
进行 聚 类 ， 从 中 可 以 发 现 哪些 博客 被 理所当然 地 划 归 到 了 一 类 : 这 些 博客 或 具有 相似 的 描 
写 主题 ， 或 使 用 了 相近 的 词汇 。 
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分 级 聚 类 

Hierarchical Clustering 

聚 类 算法 可 以 用 于 任何 具有 一 个 或 多 个 数值 属性 的 数据 集 。 虽 然 第 3 章 的 例子 中 ， 我 们 使 
用 了 针对 不 同 博客 的 单词 计数 ， 但 是 任何 形式 的 数字 集合 都 是 可 以 用 于 聚 类 算法 的 。 为 了 
说 明 分 级 聚 类 算法 的 工作 原理 ， 请 看 表 12-7 中 的 数据 项 (其 中 包含 了 字母 表 中 的 一 部 分 字 
母 ) 及 其 数值 属性 


R 12-7: 用 于 聚 类 的 一 个 简单 表格 


rr etry. T ae ni 
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下 页 图 12-12 给 出 了 针对 上 述 数 据 项 实施 聚 类 的 完整 过 程 。 在 第 一 幅 图 中 , 所 有 数据 项 以 二 
维 形 式 分 布 ，P1 对 应 于 x 轴 ，P2 对 应 于 y 轴 。 分 级 聚 类 的 工作 方式 是 ， 寻 找 两 个 距离 最 接 
近 的 数据 项 , 然后 将 它们 合 二 为 一 。 在 第 二 幅 图 中 , 我 们 可 以 看 到 两 个 最 靠近 的 项 , AH B, 
已 经 被 合 在 了 一 起 。 新 聚 类 的 “位 置 ” 等 于 原来 两 个 数据 项 位 置 的 均值 。 在 接 下 来 的 图 中 ， 
距离 最 为 接近 的 两 项 则 变 成 了 C 和 新 的 A-B 聚 类 。 这 一 过 程 会 一 直 持 续 下 去 ， 直 到 如 最 后 
一 幅 图 所 示 ， 每 个 数据 项 都 被 包含 在 了 一 个 大 的 聚 类 中 为 止 。 


上 述 过 程 形 成 了 一 个 层级 结构 ， 该 层级 结构 可 以 显示 为 树 状 图 的 形式 (dendrogram), Pik 
图 是 一 种 类 似 于 树 的 结构 ， 它 可 以 显示 出 哪些 项 和 群 组 是 紧 靠 在 一 起 的 。 上 述 样 例 数据 集 
的 树 状 图 如 下 页 图 12-13 所 示 。 


此 处 ， 距 离 最 为 接近 的 两 项 ，A 和 B， 最 终 关 联 在 了 一 起 。 而 C 则 与 A 和 了 B 的 组 合 关联 了 
起 来 。 从 该 树 状 图 中 ， 我 们 可 以 选 出 任意 一 个 枝 节点 ， 并 判断 其 是 否 为 一 个 有 价值 的 群 组 。 
在 第 3 章 ， 我 们 曾经 看 到 过 几乎 全 部 由 政治 类 博客 构成 的 分 支 ， 还 有 由 技术 类 博客 构成 的 
分 支 ， 诸 如 此 类 。 


fas 


K- Me s Ciustering 


另 一 种 对 数据 进行 聚 类 的 方法 被 称 作 K- 均 值 聚 类 。 与 分 级 聚 类 构造 一 棵 由 所 有 数据 项 构成 
的 树 不 同 ，K- 均 值 聚 类 实际 上 是 将 数据 拆 分 到 不 同 的 群 组 中 。 它 还 要 求 我 们 在 开始 执行 算 
法 之 前 给 出 想 要 的 群 组 数量 。299 页 图 12-14 给 出 了 一 个 KK- 均值 聚 类 的 实际 例子 。 在 这 一 例 
子 中 ， 我 们 尝试 从 一 个 数据 集中 寻找 两 个 聚 类 ， 此 处 所 用 的 数据 集 与 分 级 聚 类 例子 中 用 到 
的 数据 集 稍 有 不 同 。 
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图 12-12: 分 级 聚 类 的 过 程 


i; 


图 12-13: 字母 经 过 聚 类 后 得 到 的 树 状 图 


在 第 一 幅 图 中 ， 两 个 中 心 点 (以 黑 圈 标 示 ) 的 位 置 是 随机 产生 的 。 在 第 二 幅 图 中 ， 每 个 数 
据 项 都 被 分 配给 了 距离 最 近 的 中 心 点 一 一 在 本 例 中 ，A 和 B 被 分 配给 了 上 方 的 中 心 点 ， 而 
C、D 和 E 则 被 分 配给 了 下 方 的 中 心 点 。 在 第 三 幅 图 中 ,中 心 位 置 已 经 移 到 了 分 配给 原 中 心 
点 的 所 有 项 的 平均 位 置 处 。 当 再 次 进行 分 配 时 ， 我 们 可 以 看 到 C 现在 距离 上 方 的 中 心 点 较 
之 以 前 更 为 接近 了 , m D A E 则 依然 是 距离 下 方 中 心 点 最 近 的 两 项 。 如 此 ， 最 终 所 得 的 结 
RE: A, B, 在 一 个 聚 类 中 ,而 DD 和 E 则 在 另 一 个 聚 类 中 。 





聚 类 代码 使 用 说 明 


Using Your Clustering Code 


为 了 进行 聚 类 ， 我 们 需要 一 个 数据 集 和 一 个 距离 度量 方法 。 该 数据 集 由 一 组 数字 列表 构成 ， 
其 中 的 每 个 数字 代表 一 个 变量 。 虽 然 我 们 在 第 3 章 使 用 了 皮尔 逊 相关 度 和 Tanimoto 分 值 作 
为 距离 度量 的 方法 ， 但 是 使 用 其 他 度量 方法 也 是 非常 容易 的 ， 比 如 欧 几 里 德 距离 。 
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12-14; K- 均 值 聚 类 的 过 程 


>>> data=[[1.0,8.0],[3.0,8.0),[(2.0,7.0]),[1.5,1.0], [4.0,2.0]] 

>>> Llabels=['A','B','C','D','E'] 

>>> def euclidean(vl,v2): return sum([(v1[i]-v2[i])**2 for i in range(len(vl1))]) 
>>> import clusters 

>>> hcel=clusters.hcluster (data, distance=<euclidean) 

>>> kcl=clusters.kcluster(data,distance<euclidean, k=2) 

Iteration 0 

Iteration 1 


对 于 K- 均 值 聚 类 ， 我 们 可 以 轻松 地 打印 出 各 个 聚 类 中 包含 的 数据 项 : 


>>> kel 
ClO: 1, 2], [3. 4]] 
>>> for c in kcl: print [labele[I] for 1 in c] 


Cat, (B), Er] 
[PD Bt] 


分 级 聚 类 的 结果 不 太 适 合 打印 输出 ， 不 过 我 们 在 第 3 章 所 给 的 代码 中 包含 了 一 个 绘制 分 级 
聚 类 树 状 图 的 函数 : 


>>> Clusters.drawdendrogram(hcl, labels, jpeg='hcl.jpg' ) 


到 底 选择 哪 一 种 算法 完全 取决 于 所 要 处 理 的 问题 。 将 数据 拆 分 到 不 同 的 群 组 中 一 一 比如 通 
过 K- 均 值 聚 类 得 到 的 群 组 一 一 常常 是 很 有 价值 的 ， 因 为 这 样 做 更 易于 打印 输出 ， 也 更 易于 
识别 群 组 的 特征 。 而 另 一 方面 ， 面 对 一 个 全 新 的 数据 集 ， 我 们 也 许 并 不 知道 自己 想 要 多 少 
群 组 ， 也 许 只 想 了 解 其 中 有 哪些 群 组 彼此 最 为 接近 。 在 这 种 情况 下 ， 采 用 分 级 聚 类 或 许 是 
更 好 的 选择 。 
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此 外 ， 还 可 以 同时 借助 于 两 种 方法 : 先 利用 人 -均值 聚 类 建立 起 多 个 群 组 ， 然 后 再 根据 中 心 
点 的 间距 对 群 组 实施 分 级 聚 类 。 这 样 就 会 得 到 一 系列 以 树 型 方式 组 织 的 群 组 ， 它 们 位 于 树 
上 的 不 同 层次 ， 从 中 我 们 可 以 观察 到 所 有 群 组 间 的 关联 关系 。 


多 维 缩放 

Multidimensional Scaling 

在 第 3 章 的 博客 例子 中 ， 我 们 还 用 到 了 另 一 种 方法 ， 被 称 为 多 维 缩放 。 和 聚 类 算法 一 样 ， 
多 维 缩放 也 是 一 种 非 监 督 技术 ， 它 的 作用 并 不 是 要 做 预测 ， 而 是 要 使 不 同 数据 项 之 间 的 关 
联 程度 更 易于 理解 。 多 维 缩放 会 为 数据 集 构造 一 个 低 维 度 的 表达 形式 ， 并 令 距 离 值 尽 可 能 


接近 于 原 数据 集 。 对 于 屏幕 或 纸张 的 打印 输出 ， 多 维 缩放 通常 意味 着 将 数据 从 多 维 降 至 2 
维 。 


设想 一 下 ， 比 如 ， 我 们 有 一 个 如 表 12-8 所 示 的 4 维 数据 集 (每 一 项 数据 有 4 个 相关 的 值 ) 
表 12-8: 一 个 待 缩放 的 简单 的 4 维 表格 





利用 欧 几 里 德 距 离 公 式 ， 我 们 可 以 得 到 每 两 项 间 的 距离 值 。 例 如 ，A 和 B 之 间 的 距离 为 
sqrt(0.1°+0.15°+0.1°+0.0°) =02。 所 有 数据 项 两 两 之 间 的 距离 矩阵 如 表 12-9 所 示 。 


i 
12-9: 上 述 示 例 的 距离 窍 阵 
. 
人 fs Se IIR i R bere) HERAT Re 人 Sen] Pa P u aT 
Ea GRA EA Ore EOT : 直入 SND ae AUER, EEL eR See Beet, 
4 PRR ch pn ke EN fs iy al rhe RGR RhoA Sas ge te mee ‘acme oe Š 
x iti LARRE AE RN it dee tates spt fs Wl eT te Si A ee et TY EM. Bag } 





我 们 的 目标 是 要 将 所 有 数据 项 绘制 在 一 张 2 维 图 上 ， 从 而 使 各 数据 项 在 2 维 空间 中 的 距离 
尽 可 能 接近 于 其 在 4 维 空间 中 的 距离 。 我 们 将 所 有 数据 项 随机 放置 于 图 中 ， 并 且 对 各 项 之 
间 的 当前 距离 进行 了 计算 ， 如 下 页 图 12-15 所 示 。 
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12-15: 各 项 之 间 的 距离 


针对 每 一 组 数据 项 ， 我 们 会 将 目标 距离 与 当前 距离 进行 比较 ， 并 求 出 误差 ， 然 后 再 根据 两 
者 间 的 误差 , 将 每 个 数据 项 的 所 在 位 置 按 比例 移 近 或 移 远 少许 量 。 图 12-16 给 出 了 我 们 对 数 
据 项 A 的 施 力 情况 。 图 中 A 与 B 之 间 的 距离 是 0.5， 而 两 者 的 目标 距离 则 仅 为 0.2， 因 此 我 
们 必须 将 A 朝 B 的 方向 移 近 一 点 才 行 。 与 此 同时 ， 我 们 还 将 A 推 离 了 C 和 D， 因 为 它 距 
离 C 和 D 都 太 近 了 。 


图 12-16: 对 数据 项 A HEDEN 
每 个 节点 的 移动 ， 都 是 所 有 其 他 节点 施加 在 该 节点 上 的 推 或 拉 的 合力 造成 的 。 节 点 每 移动 


一 次 ， 其 当前 距离 和 目标 距离 之 间 的 差距 就 应 该 会 减少 一 些 。 这 一 过 程 会 不 断 地 重复 多 次 ， 
直到 无 法 再 通过 移动 节点 来 减少 总 的 误差 值 为 止 。 


多 维 缩放 代码 使 用 说 明 


Using Your Multidimensional Scaling Code 


在 第 3 章 中 ， 我 们 提供 了 两 个 涉及 多 维 缩放 的 函数 ， 其 中 一 个 是 用 来 实际 运行 算法 的 ， 而 
另 一 个 则 是 用 来 显示 结果 的 。 第 一 个 函数 ，scaledown， 接 受 一 个 以 多 维 形 式 表 达 的 数据 项 
列表 ， 然 后 它 以 相同 次 序 返 回 同一 列表 ， 并 将 所 有 数据 的 维度 都 降 到 了 2 维 : 

>>> labele«['A','B','C','D'] 

>>> scaleset=[[0.5,0.0,0.3,0.1], 


- [0.4,0.15,0.2,0.1], 
> (0.2,0.4,0.7,0.8], 
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eos (1.0,0.3,0.6,0.0] ] 

>>> twod=clusters.scaledown (scaleset ,distance=euclidean) 
>>> twod 

[(0.45, 0.54], 

(0.40, 0.54], 

(-0.30, 1.02), 

(0.92, 0.59)) 


另 一 个 函数 ，draw2d， 则 接受 经 过 降 维 的 列表 ， 并 生成 一 幅 图 片 : 
>>> clusters .draw2d(twod,labels, jpeg='abcd.jpg') 


执行 上 述 函 数 调用 将 会 生成 一 个 名 为 abcdjpg 的 文件 ， 其 中 包含 了 最 终 的 结果 。 除 此 以 外 ， 
我 们 也 可 以 利用 其 他 程序 ， 比 如 电子 表格 软件 ， 对 scaledown 产生 的 列表 进行 解读 ， 从 而 
以 不 同 的 方式 将 结果 加 以 可 视 化 。 


非 负 和 矩阵 因 式 分 解 

Non-Negative Matrix Factorization 

第 10 章 我 们 讨论 的 是 一 种 被 称 为 非 负 和 矩阵 因 式 分 解 (NMF) 的 高 阶 技术 ， 这 一 技术 可 以 将 
一 组 数值 型 的 观测 数据 拆 解 成 不 同 的 组 分 。 借 助 这 一 方法 ， 可 以 观察 到 构成 新 闻 故 事 的 各 
种 不 同 的 主题 ， 还 可 以 借 此 来 了 解 ， 如 何 将 股票 交易 量 分 解 成 一 系列 会 对 单 支 或 多 支 股票 


即刻 构成 影响 的 新 闻 事件 。 同 样 ， 这 也 是 一 种 非 监督 算法 ， 因 为 其 作用 并 非 预测 分 类 或 数 
值 ， 而 是 帮助 我 们 识别 数据 的 特征 。 


为 了 理解 NMF 的 原理 ， 请 见 表 12-10 所 示 的 这 组 数据 : 
表 12-10: 用 于 NMF 的 一 个 简单 表格 


sr Lelie 





co }afalula|w]r | — pee 


假定 观测 值 A 和 B 是 由 两 对 数字 ( 即 特征 ) 的 某 种 组 合 构成 的 ， 但 是 我 们 并 不 知道 这 些 数 
对 到 底 是 多 少 ， 也 不 知道 每 个 数 对 在 构造 观测 值 时 的 贡献 度 〈 即 权重 ) 有 多 大 。NMF 能 够 
为 我 们 找到 特征 和 权重 的 可 能 取 值 。 对 于 第 10 章 中 的 新 闻 故 事 而 言 ， 观 测 值 便 是 故事 ， 表 
中 的 列 则 是 故事 中 的 单词 。 而 对 于 股票 交易 量 而 言 ， 观 测 值 便 是 交易 日 期 ， 表 中 的 列 则 是 
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各 支 股 票 的 交易 代码 。 无 论 是 哪 一 种 情况 ， 算 法 都 会 试图 从 中 找 出 一 小 部 分 组 分 ， 将 这 些 
组 分 以 不 同 数量 结合 在 一 起 便 可 以 得 到 此 前 的 观测 值 。 


针对 上 表 中 的 数据 ， 一 种 可 能 的 答案 是 : 两 个 数 对 分 别 为 (3, 5) 和 (7, 2). 


借助 于 得 到 的 这 些 组 分 ， 我 们 会 发 现 ， 通 过 将 各 个 数 对 以 不 同 的 数量 加 以 组 合 ， 可 以 重新 
构造 出 原来 的 观测 值 ， 如 下 所 示 : 


5*(3, 5) + 2*(7, 2) = (29, 29) 
5*(3, 5) + 4*(7, 2) = (43, 33) 


我 们 也 可 以 将 其 看 做 是 一 个 矩阵 的 乘法 ， 如 图 12-17 所 示 。 


5 2 
5 4 
5 0 
44 
13 
9S2 
34 
03 


Š 





12-17: 将 一 个 数据 集 因 式 分 解 为 权重 和 特征 两 个 组 分 


NMF: 的 目标 是 要 自动 找到 特征 矩阵 和 权重 和 矩阵。 为 此 ， 它 以 随机 和 矩阵 开始 ， 并 根据 一 系列 
更 新 法 则 对 这 些 和 矩阵 加 以 更 新 。 根 据 法 则 我 们 得 到 了 4 个 更 新 矩阵 。 在 下 面 的 说 明 中 ， 我 
们 将 初始 年 阵 称 为 数据 矩阵 。 


hn 
经 转 置 后 的 权重 矩阵 与 数据 矩阵 相 乘 得 到 的 矩阵 。 


经 转 置 后 的 权重 矩阵 与 原 权 重 和 矩阵 相 乘 ， 再 与 特征 矩阵 相 乘 得 到 的 和 矩阵。 
wn 

B ERESHE E a rE ABR BY BF. 
wd 

BE aM: Ss RIER, Fr A PE ERE, 


A T PERE AR RE, RACH LAR AEE BR RB. PR ARES 
中 的 每 一 个 值 与 hn 中 的 对 应 值 相 乘 ， 并 除 以 hd 中 的 对 应 值 。 类 似 地 ， 我 们 再 将 权重 矩阵 
中 的 每 一 个 值 与 wn 中 的 对 应 值 相 乘 ， 并 除 以 wd 中 的 对 应 值 。 
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这 一 过 程 会 一 直 重 复 下 去 ， 直 到 特征 矩阵 和 权重 矩阵 的 乘积 与 数据 矩阵 足够 接近 为 止 。 特 
征 和 矩阵 可 以 告诉 我 们 潜 蕊 在 数据 背后 的 诸多 因素 ， 比 如 : 新 闻 的 主题 ， 还 有 股票 市 场所 发 
生 的 重大 事件 ， 这 些 因素 的 共同 组 合 可 以 重新 构造 出 我 们 的 数据 集 来 。 


NMF 代码 使 用 说 明 
Using Your NMF Code 
要 使 用 NMF 的 代码 ， 我 们 只 须 调 用 factorize 函数 ， 并 传人 一 组 观测 数据 ， 以 及 希望 找 
到 的 潜在 特征 的 数量 : 
>>> from numpy import * 


>>> import nmf 
>>> data=matrix([[ 29., 29.], 
es 33 


- { 43., ole 
l Sg S250 )% 
sae | MDa 12] 
Pe A | PE: Fe 
[ 292, 29.14 
cu Bixee 230% 
see: 4 kay 6.335 
>>> weights, features=nmf.factorize (data,pc=2) 
>>> weights 
matrix(({{ 0.64897525, 0.75470755], 
[ 0.98192453, 0.80792914], 
[ 0.31602596, 0.70148596}, 
[ 0.91871934, 0.66763194], 
[ 0.56262912, 0.22012957], 
[ 0.64897525, 0.75470755], 
[ 0.85551414, 0.52733475], 
[ 0.49942392, 0.07983238)]]) 


>>> features 
matrix([[ 41.62815416, 6.80725866], 
[ 2.62930778, 32.57189835]]) 


函数 最 终 会 返回 权重 和 特征 。 或 许 每 次 返回 的 结果 都 不 尽 相同 ， 因 为 对 于 一 个 规模 不 是 很 
大 的 观测 数据 集 而 言 ， 有 效 的 特征 可 能 不 止 一 个 。 观 测 数据 集 的 规模 越 大 ， 返 回 一 致 性 结 
果 的 可 能 也 就 越 大 ， 尽 管 这些 特 征 的 返回 次 序 也 许 稍 有 不 同 。 


优化 
Optimization 


优化 是 在 第 5 章 中 介绍 的 ， 和 其 他 方法 稍 有 不 同 ， 优 化 不 是 要 处 理 数据 集 ， 而 是 要 尝试 找 
到 能 够 使 成 本 函数 的 输出 结果 达到 最 小 化 的 值 。 第 5 章 给 出 了 成 本 函数 的 几 个 例子 ， 比 如 ;: 
根据 价格 和 候 机 时 间 的 组 合 来 安排 组 团 旅 游 ， 为 学 生 分 配 最 为 适宜 的 宿舍 ， 以 及 优化 简单 
网 络 图 的 布局 。 一 旦 设计 好 成 本 函数 ， 我 们 就 可 以 利用 同样 的 算法 来 解决 上 述 这 三 个 不 同 
的 问题 。 此 处 我 们 讨论 其 中 的 两 种 算 靶 : 模拟 退火 和 遗传 算法 。 
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成 本 函数 


pg } [~r Cc > meet g) 
fhe Cost Function 


成 本 函数 接受 一 个 经 推测 得 到 的 题解 ， 并 返回 一 个 数值 结果 ， 该 值 越 大 就 表示 题解 的 表现 
越 差 ， 该 值 越 小 就 表示 题解 的 表现 越 好 。 优 化 算法 利用 该 函数 对 各 种 题解 进行 检验 ， 并 从 
中 找 出 最 优 解 。 通 常 ， 用 于 优化 的 成 本 函数 有 许多 变量 须要 考虑 ， 而 且 有 时 我 们 并 不 清楚 
到 底 要 修改 其 中 的 哪个 变量 ， 才 能 使 最 终结 果 的 改善 效果 达到 最 好 。 不 过 ， 为 了 说 明 问 题 ， 
此 处 我 们 只 考虑 包含 一 个 变量 的 函数 ， 定 义 如 下 : 


y = 1/x * sin(x) 


图 12-18 给 出 了 该 函数 的 图 示 。 





12-18; 1/x * sin x HER 


因为 上 述 函 数 仅 有 一 个 变量 ， 所 以 从 图 中 我 们 很 容易 就 可 以 找到 函数 的 最 低 点 。 我 们 将 以 
此 来 说 明 优化 算法 的 工作 原理 ， 在 现实 中 ， 当 面 对 一 个 带 有 多 个 变量 的 复杂 函数 时 ， 寄 希 
望 于 将 其 简单 绘制 出 来 以 寻找 最 低 点 这 样 的 做 法 是 行 不 通 的 。 


该 函数 值得 关注 的 一 个 地 方 是 ， 它 有 多 个 局 部 最 小 值 。 这 些 点 所 处 的 位 置 要 低 于 周围 所 有 
的 点 ， 但 它们 未 必 是 全 局 意义 上 的 最 低 点 。 这 意味 着 ， 尝 试 随机 选择 题解 并 沿 斜 坡 向 下 的 
方法 未 必 一 定 能 够 找到 最 优 解 ， 因 为 我 们 有 可 能 会 陷入 一 个 包含 局 部 最 小 值 的 区 域 ， 而 永 
远 无 法 找到 全 局 范围 内 的 最 小 值 。 


优化 | 305 


ww ai bbt. com ooggcco 


模拟 退火 


Simulated Annealing 


模拟 退火 ， 是 受 物理 学 领域 中 合金 冷却 的 启发 而 提出 的 ， 它 以 一 个 随机 推测 的 题解 开始 ， 
然后 以 此 为 基准 随机 选择 一 个 方向 ， 并 就 近 找 到 另 一 个 近似 解 ， 判 断 其 成 本 值 。 算 法 希望 
借 此 来 改善 题解 的 表现 ， 如果 题解 的 成 本 变 小 ， 则 新 的 题解 将 取代 原来 的 题解 。 如 果 成 本 
较 之 原来 变 大 了 ， 则 新 题解 取代 旧 题 解 的 概率 就 取决 于 当前 的 温度 值 。 此 处 的 温度 ， 会 以 
一 个 相对 较 高 的 数值 开始 缓慢 下 降 。 正 因 如 此 ， 算 法 在 执行 的 早期 阶段 会 更 容易 接受 表现 
相对 较 差 的 题解 ， 这 样 我 们 就 有 效 地 避免 了 陷入 局 部 最 小 值 的 可 能 。 


当 温 度 到 达 0 时 ， 算 法 便 返 回 当前 的 题解 。 


遗传 算法 


netic Algontams 


遗传 算法 是 受 进 化 理论 启发 而 提出 的 。 它 以 一 组 被 称 为 种 群 的 随机 题解 开始 。 种 群 中 表现 
最 为 优异 的 成 员 一 一 即 成 本 最 低 者 一 一 会 被 选中 并 通过 稍 事 改变 ( 即 变异 ) 或 特征 组 合 〈 即 
交叉 或 配对 ) 的 方式 加 以 修改 。 随 后 ， 我 们 会 得 到 一 个 新 的 种 群 ， 称 之 为 下 一 代 。 经 过 连 
续 数 代 之 后 ， 题 解 最 终 将 会 得 到 相应 的 改善 。 


上 述 过 程 会 一 直 持 续 下 去 ， 只 有 当 达 到 了 某 个 园 值 ， 或 种 群 在 经 历数 代 之 后 设 有 得 到 任何 
改善 ， 又 或 是 遗传 的 代数 达到 了 最 大 值 时 ， 这 一 过 程 才 会 就 此 终止 。 算 法 最 终 将 返回 在 任 
何 一 代 种 群 中 发 现 的 最 优 解 。 


个 
he 


carpal 


Using Your Optimization Code 


不 论 上 述 哪 一 种 算法 ， 我 们 都 须要 定义 一 个 成 本 函数 ， 并 确定 题解 的 值 域 范围 。 此 处 的 值 
域 就 是 每 个 变量 可 能 的 取 值 范围 。 在 这 个 简单 的 例子 中 ， 我 们 不 妨 使 用 [(0,20)]， 即 变量 取 
值 介 于 0 和 20 之 间 。 随 后 ， 我 们 便 可 以 选择 调用 任何 一 个 优化 函数 ， 并 传 入 相应 的 成 本 孙 
数 及 值 域 范 围 作为 参数 ， 

>>> import math 

>>> def costf({x): return (1.0/ (x[{0]+0.1))*math.sin(x[0]) 

>>> domain=[ (0,20) ] 

>>> optimization. annealingoptimize (domain ,costf£) 

[5] 
无 论处 理 何 种 问题 ， 为 了 对 参数 进行 调整 ， 并 在 执行 时 间 和 题解 质量 之 间 取 得 平衡 ， 或 许 
我 们 都 有 必要 将 优化 算法 执行 多 次 。 当 为 一 组 彼此 相近 的 问题 构造 优化 程序 时 一 一 比如 前 
述 的 旅游 规划 ， 这 些 问 题目 标 一 致 但 底层 细节 〈 此 处 为 飞行 时 间 和 价格 ) 却 有 所 不 同 ， 可 
以 针对 相关 参数 进行 实验 ， 并 借 此 确定 出 适合 此 类 问题 的 参数 设置 ， 随 后 便 可 以 始终 保持 
这 些 参数 设置 固定 不 变 ， 只 要 遇 到 的 问题 都 同属 于 一 类 。 
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将 机 器 学 习 、 开 放 API, 以 及 面向 公众 的 参与 模式 结合 在 一 起 , 将 会 进发 出 各 种 各 样 的 可 能 
性 。 不 仅 如 此 ， 随 着 算法 的 不 断 精 炼 ， 开 放 API 的 不 断 涌现 ， 以 及 越 来 越 多 的 人 们 成 为 在 
线 应 用 的 积极 参与 者 ， 这 种 可 能 性 在 不 久 的 将 来 还 会 持续 扩大 。 和 希望 本 书 能 够 对 读者 构建 
集体 智慧 的 相关 应 用 有 所 帮助 ， 并 且 能 够 启迪 大 家 寻找 更 多 新 的 机 遇 ! 
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附录 A 
第 三 方 函数 库 
Third-Party Libraries 


本 书 提 到 了 许多 第 三 方 函数 库 ， 我 们 利用 这 些 函 数 库 来 收集 、 存 储 和 分 析 数 据 。 本 附录 包 
含 了 有 关 这些 函 数 库 的 下 载 和 安装 说 明 ， 还 有 一 些 使 用 的 示例 。 


Universal Feed Parser 


Universal Feed Parser 是 由 Mark Pilgrim 编写 的 一 个 Python 库 , 它 可 以 用 以 分 析 RSS 和 Atom 
的 订阅 源 。 在 本 书 中 , 我 们 利用 该 函数 库 从 在 线 的 新 闻 站 点 下 载 博 客 帖子 和 文章 。 Universal 
Feed Parser 的 首页 地 址 是 http:/feedparser.org. 


在 所 有 平台 上 安装 


Instaliation for Ali Platforms 


该 函数 库 的 下 载 地 址 是 http-//code. google.com/p/feedparser/downloads/list 。 请 下 载 文件 
feedparser-X.Y.zip 的 最 新 版 本 。 


将 zip 文件 解压 到 一 个 空 目 录 下 。 在 命令 行 输入 : 


c:\download\feedparser>python setup.py install 


上 述 命令 将 定位 我 们 的 Python 安装 路 径 ， 并 将 函数 库 安 装 到 该 路 径 下 。 待 安装 完毕 之 后 ， 
就 可 以 在 自己 的 Python 提示 符 下 输入 import feedparser， 开 始 使 用 该 函数 库 了 。 


http://feedparser.org 上 还 提供 了 一 些 有 关 函 数 库 的 使 用 示例 。 


Python Imaging Library 


Python Imaging Library (PIL) 是 一 个 开源 的 函数 库 ， 它 为 Python 增加 了 图 像 生 成 和 处 理 能 
力 。 它 支持 各 种 图 形 绘制 操作 和 文件 格式 。 其 首页 地 址 是 http/www.pythonware.com/ 
products/pil , 
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在 Windows 下 安装 
Installation on Windows 
PIL 有 一 个 Windows 安装 程序 可 供 下 载 。 在 其 首页 上 ， 请 滚动 鼠标 至 下 载 区 ， 然 后 根据 我 


们 所 安装 的 Python 版 本 选择 下 载 最 新 的 Windows 可 执行 版 本 。 运 行 下 载 后 的 文件 ,并 按照 
屏 藉 上 的 指示 一 步 步 完成 安装 。 


在 其 他 平台 上 安装 

Instaliation on Other Platforms 

对 于 其 他 非 Windows 平台 而 言 ， 我 们 须要 从 源 文 件 中 编译 生成 相应 的 函数 库 。 函 数 库 的 源 
代码 可 以 从 其 首页 下 载 到 ， 这 些 代 码 可 以 运行 在 近期 发 布 的 任何 一 个 Python 版 本 之 上 。 
在 安装 之 前 ， 请 先 下 载 最 新 版 本 的 源 代 码 ， 在 命令 行 中 输入 如 下 命令 ， 并 将 1.1.6 字样 替换 
为 我 们 下 载 时 所 选择 的 版 本 : 


$ gunzip Imaging-1.1.6.tar.gz 
$ tar xvf Imaging-1.1.6.tar 

$ cd Imaging-1.1.6 

$ python setup.py install 


上 述 命令 将 对 解压 缩 后 的 文件 实施 编译 ， 并 将 函数 库 安装 到 Python 所 在 的 目录 下 。 


简单 的 使 用 示例 

Simpie Usage Example 

在 这 一 示例 中 ， 我 们 创建 了 一 个 小 小 的 图 片 ， 在 上 面 绘制 了 几 条 直线 ， 并 写 入 了 一 行文 本 。 
然后 又 将 图 像 保 存 成 了 JPEG 文件 。 


>>> from PIL import Image, ImageDraw 
>>> img=Image.new('RGB', (200,200), (255,255,255)) # 200x200MGek FE 
>>> draw=ImageDraw. Draw (img) 


>>> draw. line((20,50,150,80), £i11=(255,0,0)) E &2He 
>>> draw. line( (150,150,20, 200), £ill=(0,255,0)) # 绿色 线 杂 
>>> draw.text({40,80),'Heéello!"', (0,0,0)) # 办 交 文本 
>>> img.save('test.jpg', 'JPEG') # 保存 到 test.jpg 文件 


更 多 的 示例 可 以 访问 http-/poww.pythonware.com/library/pil/handbook/introduction.htm, 


Beautiful Soup 


Beautiful Soup 是 一 个 HTML 和 XML 文档 的 Python 解析 器 。 它 可 以 用 以 对 书写 不 规范 的 网 
页 进行 处 理 。 在 本 书 中 , RFA Beautiful Soup， 从 不 提供 API 调用 的 Web 站 点 获取 网 页 
并 构造 数据 集 ， 还 利用 它 在 网 页 中 查找 索引 所 需 的 文本 。Beautiful Soup 的 首页 地 址 是 
http:/Avww.crummy.com/software/BeautifulSoup , 
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在 所 有 平台 上 安装 
Installatior A 


Beautiful Soup 可 以 以 单个 源 文件 的 形式 下 载 。 在 首页 靠近 底部 的 位 置 ， 有 一 个 BeautifulSoup. 
py 的 下 载 链接 。 只 要 将 其 下 载 下 来 ， 并 放 入 我 们 的 工作 目录 或 PythomLib 目录 下 即 可 。 


简单 的 使 用 示例 


Simple Usage Example 


在 这 一 示例 中 ,我 们 对 Google 首页 的 HTML 文本 进行 了 解析 ， 并 示范 了 从 DOM 树 上 提取 
元 素 和 查找 链接 的 方法 。 


>>> from BeautifulSoup import BeautifulSoup 

>>> from urllib import urlopen 

>>> soup=BeautifulSoup(urlopen('http://google.com') ) 
>>> soup.head.title 

<title>Google</title> 

>>> links=soup('‘'a') 

>>> len(links) 

21 

>>> links([0] 

<a href="http://www.google.com/ig?hl=en">iGoogle</a> 
>>> links[0].contents[0] 

u'iGoogle' 


更 多 的 示例 可 以 访问 http/Avww.crummy.com/software/Beau tifulSoup/documentation.html , 


pysqlite 

pysqlite IRAM SQLite 的 Python 接口 。 不 同 于 传统 的 数据 库 ， 嵌 入 式 数据 库 不 在 
单独 的 服务 器 进程 中 运行 ， 因 此 其 安装 和 设置 的 过 程 非常 简单 。SQLite 将 整个 数据 库 保存 
在 了 一 个 单独 的 文件 中 。 在 本 书 中 , 我 们 为 大 家 示范 了 如 何 利用 pysqlite 将 收集 到 的 数据 持 
久 化 到 数据 库 中 。 


pysqlite 的 首页 地 址 是 http,/Avww.initd.org/tracker/pysglite/Awiki/pysglite. 
在 Windows 下 安装 


Installation on Windows 


在 pysqlite 的 首页 上 有 针对 Windows 平台 的 二 进 制 安装 程序 的 下 载 链 接 。 只 要 将 其 下 载 下 
来 ， 然 后 双击 运行 。 安 装 程序 会 询问 我 们 的 Python 的 安装 目录 ， 并 将 pysqlite 安装 到 我 们 
所 指定 的 目录 下 。 


在 其 他 平台 上 安装 
Installation on Other Platforms 
对 于 其 他 非 Windows 平台 而 言 ， 我 们 须要 利用 源 文 件 来 安装 pysqtite。 可 以 从 pysqlite 的 首 
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页 下 载 到 tarball 形式 的 源 代 码 。 请 下 载 文件 的 最 新 版 本 ， 在 命令 行 中 输入 如 下 命令 ， 并 将 
2.3.3 字样 替换 为 我 们 下 载 时 所 选择 的 版 本 : 


gunzip pysqlite-2.3,3.tar.gz 
tar xvf pysqlite-2.3.3.tar.gz 
cd pysqlite-2.3,3 

python setup.py build 

python setup.py install 


WW 


简单 的 使 用 示例 


Simple Usage Exampie 


在 这 一 示例 中 ， 我 们 新 建 了 一 张 表 ， 并 在 表 中 新 添 了 一 条 记录 ， 将 这 两 项 操作 提交 之 后 ， 
又 对 刚 插入 表 中 的 记录 进行 了 查询 ， 
>>> from pysqlite2 import dbapi2 as sqlite 
>>> con=sqlite.connect ('testl1,.db') 
>>> con.execute('create table people (name,phone,city) ') 
<pysqlite2.dbapi2.Cursor object at Ox00ABE770> 
>>> con.execute('insert into people values (“toby", "555-1212", "“Boston”") "} 
<pysqlite2.dbapi2.Cursor object at 0x00AC8A10> 
>>> con.commit () 
>>> cur=con.execute('select * from people') 
>>> cur.next () 
(u'toby', u'555-1212', u'Boston') 
请 注意 ， 对 于 SQLite 而 言 ， 字 段 的 类 型 是 可 以 省 略 的 。 为 了 使 上 述 代码 也 能 适用 于 更 为 传 
统 的 数据 库 ， 或 许 我 们 应 该 在 建 表 时 将 字段 类 型 加 入 到 SQL 声明 语句 中 。 


NumPy 


NumPy 是 一 个 Python 的 数学 函数 库 ， 它 提供 了 一 个 数组 对 象 、 一 组 与 线性 代数 相关 的 函数 ， 
以 及 傅立叶 变换 函数 。 利 用 Python 来 进行 科学 计算 是 时 下 很 流行 的 一 种 做 法 ， 而 且 这 种 做 
法 很 受 大 家 的 欢迎 , 在 某 些 情况 下 甚至 已 经 逐渐 在 取代 像 MATLAB 这 样 的 专业 化 的 科学 计 
ALA. EA 10 章 中 ， 我 们 利用 NumPy 库 实 现 了 NMF 算法 。NumPy 的 首页 地 址 是 
http,//numpy.scipy.org , 


在 Windows 下 安装 


installation on Windows 


NumPy 有 一 个 Windows 版 的 二 进 制 安装 程序 ， 我 们 可 以 在 和 4 加 Vsokrceforge.ntetbprojecty/ 
showfiles.php? group_id=1369&package_id=175103 处 下 载 到 这 一 文件 。 


请 选择 与 我 们 的 Python 版 本 相 匹 配 的 .exe 文件 ， 下 载 并 运行 。 安 装 程序 会 询问 我 们 Python 
的 安装 目录 ， 并 将 NumPy 安装 到 我 们 所 指定 的 目录 下 。 
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Insialauanr 


在 其 他 平台 上 ， 我 们 可 以 使 用 源 文件 来 安装 NumPy，NumPy 的 源 代码 可 以 在 http/sourceforge. 
net/project/showfiles. php? group_id=1369&package_id=175103 处 下 载 到 。 


请 下 载 与 我 们 所 安装 的 Python 版 本 相 匹配 的 targz 文件 。 要 从 源 文 件 进行 安装 ， 请 输入 如 
下 命令 ， 并 将 1.0.2 字样 替换 为 我 们 下 载 时 所 选择 的 版 本 : 


$ gunzip numpy-1.0.2.tar.gz 
$ tar xvf numpy-1.0.2.tar.gz 
$ cd numpy-1.0.2 

$ python setup.py install 


a TR 


sin pit Xam) 


在 这 一 示例 中 ， 我 们 为 大 家 示范 了 构造 矩阵 与 矩阵 联 乘 的 方法 ,还 有 转 置 (transpose) 和 平 
滑 (flatten) 操作 的 使 用 。 


>>> from numpy import * 
>>> a=matrix([[1,2,3],[4,5,6]]) 
>>> b=matrix([[1,2], [3,4], [5,6] ]) 
>>> a*b 
matrix([[22, 28], 
[49, 64]]) 
>>> a.transpose ({) 
matrix([[1, 4], 
[2, 5], 
[3, 6]]) 
>>> a.flatten() 
matrini( (ts 2 Se 8, Be 6113 


matplotlib 


matplotlib 是 一 个 Python 的 2 维 图 形 库 , 用 它 绘制 数学 图 形 的 效果 要 比 Python Imaging Library 
更 为 出 色 。 利 用 matplotlib 生成 的 图 形 ， 其 质量 非常 之 高 ， 完 全 可 以 做 出 版 之 用 。 


安装 


Installation 


在 安装 matplotlib 之 前 , 我 们 须要 事先 安装 NumPy, 关于 NumPy 的 安装 前 文 已 经 介绍 过 了 。 
matplotlib 提供 了 适用 于 所 有 主流 平台 的 二 进 制 安装 包 , 其 中 包括 了 Windows 的 Mac OS X 
的 、 基 于 RPM 的 Linux 发 布 包 和 基于 Debian 的 Linux 发 布 包 。 我 们 可 以 在 http//matplotlib. 
sourceforge.net/installing.html 处 找到 在 任何 平台 上 安装 matplotlib 的 详细 说 明 。 
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简单 的 使 用 示例 


在 这 一 示例 中 ， 我 们 将 使 用 橙色 小 圆圈 分 别 在 坐标 为 (1D)、(2,4)、(3,9) 和 (4,16) 的 地 方 绘制 
4 个 点 。 然 后 再 将 输出 的 图 形 保存 成 文件 ， 并 将 结果 显示 在 屏幕 上 的 一 个 窗口 中 。 


>>> from pylab import * 

>>> plot([1,2,3,4]), [1,4,9,16], Fo") 
[<matplotlib.lines.Line2D instance at 0x01878990>) 
>>> savefig('testl.png') 

>>> Show{) 


我 们 还 可 以 在 http://matplotlib.sourceforge.net/tutorial.html 处 找到 大 量 matplotlib 的 使 用 范 
例 。 


pydelicious 


pydelicious 是 一 个 从 社会 化 书签 网 站 del.icio.us 获取 数据 的 函数 库 ,del.icio.us 本 身 有 一 个 官 
方 的 API， 提 供 了 一 部 分 方法 调用 ， 而 pydelicious 则 在 此 基础 上 增加 了 一 些 附 加 特性 ， 在 
第 2 章 中 ， 我 们 利用 这 些 特性 构造 了 推荐 引擎 。pydelicious 目前 位 于 Google code E, 我们 
可 以 在 http://code.google.com/p/pydelicious/source 处 访问 到 它 。 


在 所 有 平台 上 安装 


如 果 我 们 已 经 安装 了 Subversion 版 本 控制 软件 ， 那 么 获取 pydelicious 的 最 新 版 本 就 相当 容 
易 了 。 我 们 只 须 在 命令 行 输入 如 下 命令 即 可 : 


svn checkout http: //pydelicious .googlecode.com/svn/trunk/pydelicious . py 
如 果 没 有 安装 Subversion, ， 则 可 以 在 http://pydelicious.googlecode.com/sun/trunk 处 下 载 
pydelicious 的 文件 。 


待 文件 下 载 完 毕 之 后 ， 只 须 在 下 载 目录 下 运行 python setup.py install 即 可 。 运 行 的 结果 
会 将 pydelicious 安装 到 Python 的 安装 目录 下 。 


简单 的 使 用 示例 


pydelicious 提供 了 许多 方法 调用 , 我 们 可 以 利用 这 些 调用 来 获取 热门 书签 , 或 者 特定 用 户 的 
书签 。pydelicious 还 允许 我 们 将 新 书签 添加 到 自己 的 账号 中 。 


>> import pydelicious 
>> pydelicious.get popular (tag='programming') 


[{count’: °*, ‘extended’: **, “hash*: *’, 
‘description’: u'How To Write Unmaintainable Code’, 
‘tags': '', ‘href': u'http://thc.segfault.net/root/phun/unmaintain.html', 


‘user': u‘dorsia', ‘dt': u'2006-08-19T09:48:562Z'}, 
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{'count': '', ‘extended’: 1 ‘hash’: ‘', 
‘description’: u'Threading in C#', ‘tags’: '', 
*href':u'thttp://www.albahari.com/threading/', etc... 

>> pydelicious.get_userposts('dorsia') 

({*count': '', ‘extended’: '', ‘hash': °', 
‘description’: u'How To Write Unmaintainable Code’, 


‘tags': '', 'href': u'http://thc.segfault.net/root/phun/unmaintain.html', 


‘user': u'dorsia', 'dt': u'2006-08-19T09:48:562Z'}, etc... 
>>> a = pydelicious.apiNew(user, passwd) 
>>> a.posts_add(url="http://my.com/", desciption="my.com", 
extended="the url is my.moc", tags="my com") 
True 
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附录 B 
数学 公式 
Mathematical Formulas 


在 本 书 中 ， 笔 者 向 大 家 介绍 了 许多 数学 概念 。 本 附录 从 中 选择 了 一 部 分 概念 给 予 说 明 ， 并 
给 出 了 相关 公式 和 实现 代码 。 


欧 几 里 德 距离 
Euchdean Distance 
欧 几 里 德 距离 是 指 多 维 空间 中 两 点 间 的 距离 ， 这 是 一 种 用 直 尺 测量 出 来 的 距离 。 如 果 我 们 


将 两 个 点 分 别 记 作 (pi, Po Ps, pt，…) 和 (qi, Ga. qs: q4，…), 则 欧 几 里 德 距离 的 计算 公式 如 方程 
A B-1 所 示 。 





方程 式 B-1: 欧 几 里 德 距 离 


下 面 是 上 述 公式 的 一 个 明确 实现 : 


def euclideant{p,q): 
sumSq=0.0 


# 将 差 值 的 平方 累加 起 来 

for i in range(len(p)): 
sumSq+= (p[i]-q[{i])**2 

# 求 平方 根 


return (sumSq**0.5) 


在 本 书 中 ， 我 们 曾经 多 次 利用 欧 几 里 德 距离 来 判断 事项 两 两 间 的 相似 程度 。 
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BRAK AR 


Pearson Correlation Coefficient 


皮尔 逊 相关 系数 是 一 种 度量 两 个 变量 间 相 关 程 度 的 方法 。 它 是 一 个 介 于 1 和 -1 之 间 的 值 ， 
其 中 ，1 表示 变量 完全 正 相 关 ，0 表示 无 关 ，-1 则 表示 完全 负 相 关 (译注 1) 。 


HEA B-2 给 出 了 皮尔 还 相关 系数 的 计算 公式 。 
yxv- 2X2" 


X 
N 


f= 


pe Br 





方程 式 B-2: 皮尔 逊 相关 系数 
上 述 公式 可 以 用 下 列 代码 加 以 实现 : 


def pearson(x,y): 


n=len(x) 
vals=range(n) 


# 简单 求 和 
sumx=sum( [float (x{i})) for i in vals)) 
sumy=sum([float(y[i]) for i in vals)) 


# 求 平方 和 
sumxSq=sum((x[i}**2.0 for i in vals]) 
sumySq=sum([y[{i}]**2.0 for i in vals]) 


# 求 乘积 之 和 


pSum=sum({[x[i]*y[i] for i in vals]) 

# 计算 皮尔 逊 评 价值 

num=pSum- (sumx* sumy/n) 

den= ( (sumxSq-pow(sumx, 2) /n) * (sumySq-pow(sumy,2)/n))**.5 
if den==0: return 1 


r=num/den 


return r 


在 第 2 章 中 ， 我 们 曾经 利用 皮尔 还 相关 系数 来 计算 人 们 在 偏好 方面 的 相似 级 别 。 


译注 1; 负 相 关 是 指 ， 一 个 变量 的 值 越 大 ， 出 另 一 个 变量 的 值 反而 会 越 小 。 
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加 权 平 均 
Weighted Mean 
加 权 平 均 是 这 样 一 类 求 平均 的 运算 : 参与 求 平均 运算 的 每 一 个 观测 变量 都 有 一 个 对 应 的 权 


重 值 。 在 本 书 中 ， 我 们 曾经 根据 相似 度 评价 值 ， 利 用 加 权 平 均 来 进行 数值 型 预测 。 加 权 平 
均 的 计算 公式 如 方程 式 B-3 所 示 ， 其 中 的 xi…xn 是 观测 变量 ， Wit Whao 是 权重 值 。 


W 1 区 | twix +... +W 


3 = 
W|I +tWI+t .+ Ww 





方程 式 B-3: 加 权 平 均 
上 述 公 式 的 一 个 简单 实现 如 下 所 示 ， 函 数 接受 一 个 数值 列表 和 一 个 权重 列表 作为 参数 : 


def weightedmean(x,w): 
num=sum([{x[i]*w{i] for i in range(len(w))]) 


den=sum([w[i] for i in range(len(w))]) 


return num/den 


在 第 2 章 中 ， 我 们 曾经 利用 加 权 平均 来 预测 人 们 对 一 部 影片 的 喜好 程度 。 这 是 通过 以 其 他 
用 户 与 当前 用 户 在 品味 上 的 相似 度 为 权重 ， 对 这 些 人 的 影片 评分 情况 求 加 权 平均 而 得 到 的 。 
在 第 8 章 ， 我 们 还 曾 利用 加 权 平均 来 进行 价格 方面 的 预测 。 


Tanimoto 系数 
Tanimoto Coefficient 
Tanimoto 系数 是 一 种 度量 两 个 集合 之 间 相 似 程度 的 方法 。 在 本 书 中 ， 我 们 曾经 根据 一 组 属 


性 列表 ， 利 用 Tanimoto 系数 来 计算 两 个 事项 之 间 的 相似 度 。 如 果 我 们 有 两 个 集合 ， 分 别 是 
A 和 B: 


A= [shirt, shoes, pants, socks] 
B = [shirt, skirt, shoes] 


那么 两 个 集合 之 间 的 交集 ( 即 重 登 部 分 ) ， 我 们 称 其 为 C， 等 于 [shirtshoes]。Tanimoto 系数 
的 计算 公式 如 方程 式 B-4 所 示 ， 其 中 N, 是 集合 A 的 元 素 个 数 ，N 是 集合 B 的 元 素 个 数 ， 
Ne 是 集合 C 的 元 素 个 数 。 在 本 例 中 ，Tanimoto 系数 等 于 2/(4+3-2) = 2/5 = 0.4。 


N 


É 


T = 一 一 一 -一 一 一 - 
(N,+N,-N-) 


AR B-4: Tanimoto 系数 
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下 列 函 数 非常 简单 ， 它 接受 两 个 列表 作为 输入 参数 ， 并 求 得 Tanimoto AR: 


def tanimoto(a,b): 
c=(v for v in aif v in p) 
return float(len(c))/(len(a)+len(b)-len(c)) 


在 第 3 章 中 ， 我 们 曾经 在 处 理 聚 类 时 利用 Tanimoto 系数 来 计算 两 位 用 户 之 间 的 相似 程度 。 


Conditional Probability 

概率 是 一 种 衡量 某 事件 发 生 几 率 的 方法 。 通常 记 做 Prf4)=x， 其 中 的 A 代表 事件 。 例 如 , 我 
们 可 能 会 说 今天 有 20% 的 可 能 性 会 下 雨 ， 相 应 地 ， 我 们 将 其 记 为 Pr{frain) = 0.2。 

如 果 我 们 发 现 目前 已 经 是 乌云 密布 了 ， 那 么 也 许 就 会 推断 ， 今 天 有 两 的 几率 会 比 原来 更 高 。 
这 就 是 条 件 概率 , 即 : 假定 我 们 在 知道 B 的 情况 下 , A 发 生 的 几率 。 我 们 将 其 记 作 Pr(AlB), 
在 本 例 中 ， 即 为 :Pr{rainlcloudy)。 

条 件 概 率 的 计算 公式 等 于 ， 两 事件 同时 发 生 的 概率 ， 除 以 其 中 作为 先决 条 件 的 那个 事件 所 
发 生 的 概率 ， 如 方程 式 B-5 所 示 。 


Pr(AMB) 


Pr(A|B) = Pr(B) 


方程 式 B-5: RHR 
因此 ， 如 果 早 上 是 阴 天 而 且 后 来 又 下 十 的 概率 为 10% ， 而 早上 阴 天 的 概率 为 25%， 那 么 
Pr(rain\cloudy)=0.1/0.25=0.4 , 


由 于 只 是 一 个 简单 的 除法 运算 ， 因 而 此 处 就 不 给 出 函数 了 。 在 第 6 章 中 ， 我 们 曾经 将 条 件 
概率 用 于 对 文档 的 过 滤 处 理 。 


基尼 不 纯度 


Gini Impurity 

基尼 不 纯度 是 一 种 度量 集合 有 多 纯 的 方法 。 假 设 我 们 有 一 个 集合 ， 比 如 [A, A, B, B, B, Cl, 
那么 基尼 不 纯度 会 告诉 我 们 ， 如果 从 集合 中 选 出 一 项 ， 并 随机 猜测 其 标识 (译注 2), UGA 
测 错误 的 概率 为 多 少 。 如 果 集合 中 的 所 有 元 素 都 是 A， 我 们 便 总 会 猜 到 是 A， 而 且 从 来 都 
不 会 出 错 ， 那 么 该 集合 就 是 绝对 纯 的 。 


方程 式 B-6 给 出 了 基尼 不 纯度 的 计算 公式 。 


m 


Ig = 1- ¥ fap’ = Y fapsar 


j=l jek 





HEX B-6: BETHE 


译注 2; AAt, PAA, BAC, 
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下 列 函数 接受 一 个 事项 列表 作为 参数 ， 并 求 得 基尼 不 纯度 : 


def giniimpurity(1): 
total=len(1) 
counts={ } 
for item in ds , 
counts.setdefault (item, 0) 
counts [item] +=1 
imp=0 
Eor jj imis 
f1=float (counts[j])/total 
for k in l: 
if j==k: continue 
f2=float (counts[k])/total 
imp+=f1*f2 
return imp 
我 们 在 第 7 章 进 行 决策 树 建 模 时 ， 曾 利用 基尼 不 纯度 来 判断 ， 如 何 划分 一 个 集合 才能 令 其 
变 得 更 纯 。 


Entropy 


炳 是 判断 集合 内 部 混乱 程度 的 另 一 种 方法 。 它 出 自信 息 理论 ， 是 用 以 度量 一 个 集合 中 的 无 
序 情况 的 。 WRAP TARR RE, RATT ARS. WRG REEL 
抽 中 某 一 元 素 的 意外 程度 。 如 果 集 合 中 的 所 有 元 素 都 是 A， 那 么 当 我 们 抽 中 元 素 A 的 时 候 
是 绝对 不 会 出 现 意外 的 ， 此 时 的 箭 即 为 0。 坑 的 计算 公式 如 方程 式 B-7 所 示 。 


n 


n 
H(X) = >, p(xDlog (pes) = - J, p(x)logy p(x) 
i=] 





i=] 
方程 式 B-7: W 
下 列 函数 接受 一 个 事项 列表 作为 参数 ， 并 求 得 焕 的 值 ; 


def entropy(l): 
from math import log 
log2=lambda x:log(x) /log(2) 


total=len({1) 

counts={} 

for item in 1: 
counts.setdefault (item, 0) 
counts [item] +=1 


ent=0 

for i in counts: 
p=float (counts[i])/total 
ent-=p*log2 (p) 

return ent 


320 | WRB: 数学 公式 


ww ai bbt. com DOOOO00 


我 们 在 第 7 章 进行 决策 树 建 模 时 ， 曾 利用 坑 来 判断 : 如 何 划 分 一 个 集合 才能 减少 无 序 的 情 
况 。 


方差 
Variance 


方差 是 用 来 度量 一 组 数值 与 其 均值 之 间 的 差距 的 。 它 经 常 被 用 于 统计 学 中 ， 用 以 测量 集合 
中 各 个 数值 之 间 的 差 。 方 差 的 计算 方法 是 ， 先 求 出 每 个 数值 与 均值 之 间 的 差 ， 然 后 再 对 这 
些 差 值 的 平方 和 求 平均 ， 如 方程 式 B-8 所 示 。 





方程 式 B-8: 方差 


下 面 是 一 个 简单 的 函数 实现 : 


def variance(vals): 
mean=float (sum(vals) )/len(vals) 
s=sum({[(v-mean)**2 for v in vals]) 
return s/len(vals) 


我 们 在 第 7 章 进行 回归 树 建 模 时 ， 曾 利用 方差 来 判断 : 如 何 对 集合 做 划分 才能 使 划分 后 的 
子 集 分 布 得 更 加 紧密 。 


高 斯 函数 
Gaussian Functor 


高 斯 函数 是 正 态 曲线 的 概率 密度 函数 。 由 于 它 具 有 “从 高 位 开始 快速 下 降 , 但 从 不 会 降 到 0” 
的 特点 ， 因 此 在 本 书 中 ， 我 们 将 它 用 作 加 权 k- 最 近邻 算法 的 权重 函数 。 


如 方程 式 B-9 所 示 的 ， 是 一 个 带 差 值 变 量 o 的 高 斯 函数 计算 公式 .。 





1 2 
exp -入 
o 2n 26°“ 


方程 式 B-9: 高 斯 函数 
上 述 公式 可 以 直接 被 翻译 成 一 个 只 有 两 行 代码 的 函数 ; 


import math 

def gaussian(dist,sigma=10.0): 
exp=math.e** (-dist**2/ (2*sigma**2) ) 
return (1/(sigma*(2*math.pi)**.5))*exp 


我 们 在 第 8 章 构造 数值 型 预测 算法 时 ， 曾 将 高 斯 函数 作为 一 个 可 行 的 权重 函数 。 
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点 积 是 两 个 向 量 的 一 种 相 乘 运算 。 假设 我 们 已 有 两 个 向量 , a = (a1,a2,a3,…), b= (b1,b2,b3,"**), 
那么 点 积 的 定义 就 如 方程 式 B-10 AN. 


n 
aeb = > a,b; = a,b, +a,b, +... +a,b 


non 





i=l 


方程 式 B-10: 利用 向 量 中 的 各 个 元 素来 计算 点 积 
我 们 可 以 很 容易 地 利用 下 列 函 数 来 实现 点 积 的 计算 : 


def dotproduct (a,b): 
return sum((a[i]*b[i] for i in range(len(a))]) 


假设 8 是 两 个 向 量 间 的 夹 角 ， 那 么 点 积 的 定义 也 可 以 如 方程 式 B-11 所 示 。 


aeb = lallb|cos8 


方程 式 B-11: 利用 夹 角 来 计算 点 积 
这 意味 着 ， 我 们 可 以 利用 点 积 来 计算 两 个 向 量 间 的 夹 角 : 


from math import acos 
# 计算 一 个 向 量 的 大 小 


def veclength(a): 
return sum([a[i] for i in range(len(a)})])**.5 


# 计算 两 个 向 量 间 的 央 角 


def angle(a,b): 
ap=dotproduct (a,b) 
la=veclength (a) 
lb=veclength (b) 
costheta=dp/ (la*1b) 
return acos(costheta) 


我 们 在 第 9 章 对 事物 进行 分 类 时 ， 曾 利用 点 积 来 计算 向 量 的 夹 角 。 
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classify method, 131 

fisherprob method, 129 

setminimum method, 131 
getwords function, 118 
naivebayes class, 124 

prob method, 125 
sampletrain function, 121 


document filtering, 117-141 


Akismet, 138 

arbitrary phrase length, 140 

blog feeds, 134-136 

calculating probabilities, 121-123 
assumed probability, 122 
conditional probability, 122 

classifying documents, 118-119 
training classifiers, 119-121 

exercises, 140 

Fisher method, 127-131 
classifying items, 130 
combining probabilities, 129 
versus naive Bayesian filter, 127 

improving feature detection, 136-138 

naive Bayesian classifier, 123-127 
choosing category, 126 

naive Bayesian filter 
versus Fisher method, 127 

neural network classifier, 141 

persisting trained classifiers, 132-133 
SQLite, 132-133 

Pr(Document), 140 

spam, 117 
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document filtering (continued) 
varying assumed probabilities, 140 
virtual features, 141 
document location, 65 
content-based ranking 
document location, 67 
dorm.py, 106 
dormcost function, 109 
printsolution function, 108 
dot-product, 322 
code, 322 
dot-products, 203, 290 
downloadzebodata.py, 45, 46 


eBay, xvii 

eBay API, 189-195, 196 
developer key, 189 
getting details for item, 193 
performing search, 191 
price predictor, building, 194 
Quick Start Guide, 189 
setting up connection, 190 

ebaypredict.py 
doSearch function, 191 
getCategory function, 192 
getHeaders function, 190 
petltem function, 193 
getSingleValue function, 190 
makeLaptopDataset function, 194 
sendrequest function, 190, 191 

elitism, 266 

entropy, 148, 320 
code, 320 

Euclidean distance, 203, 316 
code, 316 
k-nearest neighbors (kNN), 293 
score, 10-11 

exact matches, 84 


F 


Facebook, 110 
. building match dataset, 223 
creating session, 220 
developer key, 219 
downloading friend data, 222 
matching on, 219-224 
other Facebook predictions, 225 
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facebook. py 
arefriends function, 223 
createtoken function, 221 
fbsession class, 220 
getfriends function, 222 
getinfo method, 222 
getlogin function, 221 
getsession function, 221 
makedataset function, 223 
makehash function, 221 
sendrequest method, 220 
factorize function, 238 
feature extraction, 226-248 
news, 227-230 
feature-extraction algorithm, 228 
features, 277 
features matrix, 234 
feedfilter.py, 134 
entryfeatures method, 137 
feedforward algorithm, 78-80 
feedparser, 229 
filtering 
documents (see document filtering) 
rule-based, 118 
spam 
threshold, 126 
tips, 126 
financial fraud detection, 6 
financial markets, 2 
Fisher method, 127-131 
classifying items, 130 
combining probabilities, 129 
versus naive Bayesian filter, 127 
fitness function, 251 
flight data, 116 
flight searches, 101-106 


full-text search engines (see search engines) 


futures markets, 2 


G 


Gaussian function, 174, 321 
code, 321 

Gaussian-weighted sum, 188 

generatefeedvector.py, 31, 32 
getwords function, 31 

generation, 97 

genetic algorithms, 97—100, 306 
crossover or breeding, 97 
generation, 97 
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mutation, 97 Google, 1, 3, 5 


population, 97 PageRank algorithm (see PageRank 
versus genetic programming, 251 algorithm) 
genetic optimization stopping criteria, 116 Google Blog Search, 134 
genetic programming, 99, 250-276 gp.py. 254-258 
breeding, 251 buildhiddenset function, 259 
building environment, 265-268 constnode class, 254, 255 
creating initial population, 257 crossover function, 263 
crossover, 251 evolve function, 265, 268 
data types, 274 fwrapper class, 254, 255 
dictionaries, 274 getrankfunction function, 267 
lists, 274 gridgame function, 269 
objects, 274 hiddenfunction function, 259 
strings, 274 humanplayer function, 272 
diversity, 268 mutate function, 261 
elitism, 266 node class, 254, 255 
exercises, 276 display method, 256 
fitness function, 251 exampletree function, 255 
function types, 276 makerandomtree function, 257 
further possibilities, 273-275 paramnode class, 254, 255 
hidden functions, 276 rankfunction function 
measuring success, 260 breedingrate, 266 
memory, 274 mutationrate, 266 
mutating programs, 260-263 popsize, 266 
mutation, 251 probexp, 266 
nodes with datatypes, 276 probnew, 266 
numerical functions, 273 scorefunction function, 260 
overview, 250 tournament function, 271 
parse tree, 253 grade inflation, 12 
playing against real people, 272 Grid War, 268 
programs as trees, 253-257 player, 276 
Python and, 253-257 group travel cost function, 116 
random crossover, 276 group travel planning, 87-88 
replacement mutation, 276 car rental period, 89 
RoboCup, 252 cost function (see cost function) 
round-robin tournament, 270 departure time, 89 
simple games, 268-273 price, 89 
Grid War, 268 time, 89 
playing against real people, 272 waiting time, 89 
round-robin tournament, 270 GroupLens, 25 
stopping evolution, 276 web site, 27 
successes, 252 groups, discovering, 29-53 
testing solution, 259 blog clustering, 53 
tic-tac-toe simulator, 276 clusters of preferences (see clusters of 
versus genetic algorithms, 251 preferences) 
Geocoding, 207 column clustering (see column clustering) 
API, 207 data clustering (see data clustering) 
Gini impurity, 147, 319 exercises, 53 
code, 320 hierarchical clustering (see hierarchical 
global minimum, 94, 305 clustering) 


Goldberg, David, 8 
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groups, discovering (continued) 

K-means clustering (see K-means 
clustering) 

Manhattan distance, 53 

multidimensional scaling (see 
multidimensional scaling) 

supervised versus unsupervised 
learning, 30 


heterogeneous variables, 178-181 
scaling dimensions, 180 
hierarchical clustering, 33-38, 297 
algorithm for, 35 
closeness, 35 
dendrogram, 34 
individual clusters, 35 
output listing, 37 
Pearson correlation, 35 
running, 37 
hill climbing, 92-94 
random-restart, 94 
Holland, John, 100 
Hollywood Stock Exchange, 5 
home prices, modeling, 158-161 
Zillow API, 159-161 
Hot or Not, xvii, 161-164 
hotornot.py 
getpeopledata function, 162 
getrandomratings function, 162 
HTML documents, parser, 310 
hyperbolic tangent (tanh) function, 78 


inbound link searching, 85 
inbound links, 69-73 
PageRank algorithm, 70-73 
simple count, 69 
using link text, 73 
independent component analysis, 6 
independent features, 226-249 
alternative display methods, 249 
exercises, 248 
K-means clustering, 248 
news sources, 248 
optimizing for factorization, 249 
stopping criteria, 249 
indexing, 54 
adding to index, 61 
building index, 58-62 
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finding words on page, 60 
setting up schema, 59 
tables, 59 
intelligence, evolving, 250-276 
inverse chi-square function, 130 
inverse function, 172 
IP addresses, 141 
item-based bookmark filtering, 28 
Irem-based Collaborative Filtering 
Recommendation Algorithms, 27 
item-based filtering, 22-25 
getting recommendations, 24-25 
item comparison dataset, 23-24 
versus user-based filtering, 27 


J 


Jaccard coefficient, 14 


Kayak, xvii, 116 
API, 101, 106 
data, 102 
firstChild, 102 
getElementsByTagName, 102 
kayak.py, 102 
createschedule function, 105 
flightsearch function, 103 
flightsearchresults function, 104 
getkayaksession( ) function, 103 
kernel 
best kernel parameters, 225 
kernel methods, 197-225 
understanding, 211 
kernel trick, 212-214, 290 
radial-basis function, 213 
kernels 
other LIBSVM, 225 
K-means clustering, 42-44, 248, 297-300 
function for doing, 42 
k-nearest neighbors (KNN), 169-172, 
293-296 
cross-validating, 294 
defining similarity, 171 
Euclidean distance, 293 
number of neighbors, 169 
scaling and superfluous variables, 294 
strengths and weaknesses, 296 
weighted average, 293 
when to use, 195 
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L 


Last.fm, 5 
learning from clicks (see neural network, 
artificial) 
LIBSVM 
applications, 216 
matchmaker dataset and, 218 
other LIBSVM kernels, 225 
sample session, 217 
LIBSVM library, 291 
line angle penalization, 116 
linear classification, 202-205 
dot-products, 203 
vectors, 203 
LinkedIn, 110 
lists of interests, 206 
local minima, 94, 305 
longitudes and latitudes of two points into 
distance in miles, converting, 208 


machine learning, 3 
limits, 4 
machine vision, 6 
machine-learning algorithms (see algorithms) 
Manhattan distance, 14, 53 
marketing, 6 
mass-and-spring algorithm, 111 
matchmaker dataset, 197-219 
categorical features, 205-209 
creating new, 209 
decision tree algorithm, 199-201 
difficulties with data, 199 
LIBSVM, applying to, 218 
scaling data, 209-210 
matchmaker.csv file, 198 
mathematical formulas, 316-322 
conditional probability, 319 
dot-product, 322 
entropy, 320 
Euclidean distance, 316 
Gaussian function, 321 
Gini impurity, 319 
Pearson correlation coefficient, 317 
Tanimoto coefficient, 318 
variance, 32] 
weighted mean, 318 
matplotlib, 185, 313 
installation, 313 
usage example, 314 


matrix math, 232-243 
algorithm, 237 
data matrix, 238 
displaying results, 240, 246 
factorize function, 238 
factorizing, 234 
multiplication, 232 
multiplicative update rules, 238 
NumPy, 236 
preparing matrix, 245 
transposing, 234 
matrix, converting to, 230 
maximum-margin hyperplane, 215 
message boards, 117 
minidom, 102 
minidom API, 159 
models, 3 
MovieLens, using dataset, 25-27 
multidimensional scaling, 49-52, 53, 
300-302 
code, 301 
function, 50 
Pearson correlation, 49 
multilayer perceptron (MLP) network, 74, 
285 
multiplicative update rules, 238 
mutation, 97, 251, 260-263 


naive Bayesian classifier, 123-127, 279 
choosing category, 126 
strengths and weaknesses, 280 
versus Fisher method, 127 
national security, 6 
nested dictionary, 8 
Netflix, 1,5 
network visualization 
counting crossed lines, 112 
drawing networks, 113 
layout problem, 110-112 
network vizualization, 110-115 
neural network, 55 
artificial, 74-84 
backpropagation, 80-82 
connecting to search engine, 83 
designing click-training network, 74 
feeding forward, 78-80 
setting up database, 75-77 
training test, 83 
neural network classifier, 141 
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neural networks, 285-288 
backpropagation, and, 287 
black box method, 288 
combinations of words, and, 285 
multilayer perceptron network, 285 
strengths and weaknesses, 288 
synapses, and, 285 
training, 287 
using code, 287 

news sources, 227-230 

newsfeatures.py, 227 
getarticlewords function, 229 
makematrix function, 230 
separatewords function, 229 
shape function, 237 
showarticles function, 241, 242 
showfeatures function, 240, 242 
stripHTML function, 228 
transpose function, 236 

nn. py 
searchnet class, 76 

generatehiddennode function, 77 
getstrength method, 76 
setstrength method, 76 
nnmf.py 
difcost function, 237 
non-negative matrix factorization 
(NMF), 232-239, 302-304 
factorization, 30 
goal of, 303 
update rules, 303 
using code, 304 

normalization, 66 

numerical predictions, 167 

numpredict.py 
createcostfunction function, 182 
createhiddendataset function, 183 
crossvalidate function, 177, 182 
cumulativegraph function, 185 
distance function, 171 
dividedata function, 176 
euclidian function, 171 
gaussian function, 175 
getdistances function, 171 
inverseweight function, 173 
knnestimate function, 171 
probabilitygraph function, 187 
probguess function, 184, 185 
rescale function, 180 
subtractweight function, 173 
testalgorithm function, 177 
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weightedknn function, 175 
wineprice function, 168 
winesetl function, 168 
wineset2 function, 178 

NumPy, 236, 312 
installation on other platforms, 313 
installation on Windows, 312 
usage example, 313 
using, 236 


0 


online technique, 296 
Open Web APIs, xvi 
optimization, 86-116, 181, 196, 304-306 
annealing starting points, 116 
cost function, 89-91, 304 
exercises, 116 
flight searches (see flight searches) 
genetic algorithms, 97-100 
crossover or breeding, 97 
generation, 97 
mutation, 97 
population, 97 
genetic optimization stopping 
criteria, 116 
group travel cost function, 116 
group travel planning, 87-88 
car rental period, 89 
cost function (see cost function) 
departure time, 89 
price, 89 
nme, 89 
waiting time, 89 
hill climbing, 92-94 
line angle penalization, 116 
network visualization 
counting crossed lines, 112 
drawing networks, 113 
layout problem, 110-112 
network vizualization, 110-115 
pairing students, 116 
preferences, 106-110 
cost function, 109 
running, 109 
student dorm, 106-108 
random searching, 91-92 
representing solutions, 88-89 
round-trip pricing, 116 
simulated annealing, 95-96 
where it may not work, 100 
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optimization.py, 87, 182 
annealingoptimize function, 95 
geneticoptimize function, 98 

elite, 99 

maxiter, 99 

mutprob, 99 

popsize, 99 
getminutes function, 88 
hillclimb tunction, 93 
printschedule function, 88 
randomoptimize function, 91 
schedulecost function, 90 


P 


PageRank algorithm, 5, 70-73 
pairing students, 116 
Pandora, 5 
parse tree, 253 
Pearson correlation 
hierarchical clustering, 35 
multidimensional scaling, 49 
Pearson correlation coefficient, 11-14, 317 
code, 317 
Pilgrim, Mark, 309 
polynomial transformation, 290 
poplib, 140 
population, 97, 250, 306 
diversity and, 257 
Porter Stemmer, 61 
Pr(Document), 140 
prediction markets, 5 
price models, 167-196 
building sample dataset, 167-169 
eliminating variables, 196 
exercises, 196 
item types, 196 
k-nearest neighbors (kNN), 169 
laptop dataset, 196 
leave-one-out cross-validation, 196 
optimizing number of neighbors, 196 
search attributes, 196 
varying ss for graphing probability, 196 
probabilities, 319 
assumed probability, 122 
Bayes’ Theorem, 125 
combining, 129 
conditional probability, 122 
graphing, 186 


naive Bayesian classifier (see naive 
Bayesian classifier) 
of entire document given 
classification, 124 

product marketing, 6 

public message boards, 117 

pydelicious, 314 
installation, 314 
usage example, 314 

pysqlite, 58, 311 
importing, 132 
installation on other platforms, 311 
installation on Windows, 311 
usage example, 312 

Python 
advantages of, xiv 
tips, xv 

Python Imaging Library (PIL), 38, 309 
installation on other platforms, 310 
usage example, 310 
Windows installation, 310 

Python, genetic programming and, 253-257 
building and evaluating trees, 255-256 
displaying program, 256 
representing trees, 254-255 
traversing complete tree, 253 


Q 

query layer, 74 

querying, 63-64 
query function, 63 


radial-basis function, 212 
random searching, 91-92 
random-restart hill climbing, 94 
ranking 
content-based (see content-based ranking) 
queries, 55 
recommendation engines, 7-28 
building del.icio.us link 
recommender, 19-22 
building dataset, 20 
del.icio.us API, 20 
recommending neighbors and 
links, 22 
collaborative filtering, 7 
collecting preferences, 8-9 
nested dictionary, 8 
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recommendation engines (continued) 
exercises, 28 
finding similar users, 9-15 
Euclidean distance score, 10-11 


Pearson correlation coefficient, 11-14 


ranking critics, 14 
which metric to use, 14 
item-based filtering, 22-25 
getting recommendations, 24-25 
item comparison dataset, 23-24 
item-based filtering versus user-based 
filtering, 27 
matching products, 17-18 
recommending items, 15-17 
weighted scores, 15 
using MovieLens dataset, 25-27 
recommendations based on purchase 
history, 5 
recommendations.py, 8 
calculateSimilarltems function, 23 
getRecommendations function, 16 
getRecommendedltems function, 25 
loadMovieLens function, 26 
sim_distance function, 11 
sim_pearson function, 13 
topMatches function, 14 
transformPrefs function, 18 
recursive tree binding, 149-151 
returning ranked list of documents from 
query, 55 
RoboCup, 252 
round-robin tournament, 270 
round-trip pricing, 116 
RSS feeds 
counting words in, 31-33 
filtering, 134-136 
parsing, 309 
rule-based filters, 118 


S 


scaling and superfluous variables, 294 
scaling data, 209-210 
scaling dimensions, 180 
scaling, optimizing, 181-182 
scoring metrics, 69-73 
PageRank algorithm, 70-73 
simple count, 69 
using link text, 73 
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search engines 


Boolean operations, 84 
content-based ranking (see content-based 
ranking) 
crawler (see crawler) 
document search, long/short, 84 
exact matches, 84 
exercises, 84 
inbound link searching, 85 
indexing (see indexing) 
overview, 54 
querying (see querying) 
scoring metrics (see scoring metrics) 
vertical, 101 
word frequency 
bias, 84 
word separation, 84 


searchengine.py 


addtoindex function, 61 
crawler class, 55, 57,59 
createindextables function, 59 
distancescore function, 68 
frequencyscore function, 66 
getentryid function, 61 
getmatchrows function, 63 
gettextonly function, 60 
import statements, 57 
importing neural network, 83 
inboundlinkscore function, 69 
isindexed function, 58, 62 
linktextscore function, 73 
normalization function, 66 
searcher class, 65 

nnscore function, 84 

query method, 83 
searchnet class 

backPropagate function, 81 

trainquery method, 82 

updatedatabase method, 82 
separatewords function, 60 


searchindex.db, 60, 62 
searching, random, 91-92 
self-organizing maps, 30 
sigmoid function, 78 

signups, predicting, 142-144 
simulated annealing, 95-96, 305 
socialnetwork.py, 111 


crosscount function, 112 
drawnetwork function, 113 
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spam filtering, 117 
method, 4 
threshold, 126 
tips, 126 
SpamBayes plug-in, 127 
spidering, 56 (see crawler) 
SQLite, 58 
embedded database interface, 311 
persisting trained classifiers, 132-133 
tables, 59 
squaring numbers, 177 
stemming algorithm, 61 
stochastic optimization, 86 
stock market analysis, 6 
stock market data, 243-248 
closing price, 243 
displaying results, 246 
Google's trading volume, 248 
preparing matrix, 245 
running NMF, 246 
trading volume, 243 
Yahoo! Finance, 244 
stockfeatures.txt file, 247 
stockvolume.py, 245, 246 
factorize function, 246 
student dorm preference, 106-108 
subtraction function, 173 
supervised classifiers, 226 
supervised learning methods, 29, 277-296 
supply chain optimization, 6 
support vectors, 216 
support-vector machines (SVMs), 197-225, 
289-292 
Bayesian classifier, 225 
building model, 224 
dot-products, 290 
exercises, 225 
hierarchy of interests, 225 
kernel trick, 290 
LIBSVM, 291 
optimizing dividing line, 225 
other LIBSVM kernels, 225 
polynomial transformation, 290 
strengths and weaknesses, 292 
synapses, 285 


T 


tagging similarity, 28 
Tanimoto coefficient, 47, 318 
code, 319 


Tanimoto similarity score, 28 
temperature, 306 
test sets, 176 
third-party libraries, 309-315 
Beautiful Soup, 310 
matplotlib, 313 
installation, 313 
usage example, 314 
NumPy, 312 
installation on other platforms, 313 
installation on Windows, 312 
usage example, 313 
pydelicious, 314 
installation, 314 
usage example, 314 
pysqlite, 311 
installation on other platforms, 311 
installation on Windows, 311 
usage example, 312 
Python Imaging Library (PIL), 309 
installation on other platforms, 310 
usage example, 310 
Windows installation, 310 
Universal Feed Parser, 309 
trading behavior, 5 
trading volume, 243 
training 
Bayesian classifier, 278 
decision tree classifier, 281 
neural networks, 287 
sets, 176 
transposing, 234 
tree binding, recursive, 149-151 
treepredict.py, 144 
buildtree function, 149 
classify function, 153 
decisionnode class, 144 
divideset function, 145 
drawnode function, 153 
drawtree function, 152 
entropy function, 148 
mdclassify function, 157 
printtree function, 151 
prune function, 155 
split_function, 146 
uniquecounts function, 147 
variance function, 158 
trees (see decision trees) 
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U 


uneven distributions, 183—188 
graphing probabilities, 185 
probability density, estimating, 184 

Universal Feed Parser, 31, 134, 309 

unsupervised learning, 30 

unsupervised learning techniques, 296-302 

unsupervised techniques, 226 

update rules, 303 

urllib2, 56, 102 

Usenet, 117 

user-based collaborative filtering, 23 

user-based efficiency, 28 

user-based filtering 
versus item-based filtering, 27 


V 


variance，321 

code, 321 
varying assumed probabilities, 140 
vector angles, calculating, 322 
vectors, 203 
vertical search engine, 101 
virtual features, 141 


W 


weighted average, 175, 293 

weighted mean, 318 
code, 318 

weighted neighbors, 172-176 
bell curve, 174 
Gaussian function, 174 
inverse function, 172 
subtraction function, 173 
weighted kNN, 175 
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weighted scores, 15 
weights matrix, 235 
Wikipedia, 2, 56 
word distance, 65, 68 
word frequency, 64, 66 
bias, 84 
word separation, 84 
word usage patterns, 226 
word vectors, 30-33 
clustering blogs based on word 
frequencies, 30 
counting words in feed, 31-33 
wordlocation table, 63, 64 
words commonly used together, 40 


X 


XML documents, parser, 310 
xml.dom, 102 


Y 


Yahoo! application key, 207 
Yahoo! Finance, 53, 244 
Yahoo! Groups, 117 
Yahoo! Maps, 207 

yes/no questions, 206 


Z 


Zebo, 44 
scraping results, 45 
web site, 45 
Zillow API, 159-161 
zillow.py 
getaddressdata function, 159 
getpricelist function, 160 
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CO REILLY 





集体 智慧 编程 


“ABT! 对 于 初学 这 些 算 法 的 开发 者 而 言 ， 我 想 不 出 有 比 这 本 书 更 好 的 选择 了 ， 而 对 于 

像 我 这 样 学 过 Al 的 老 朽 而 言 ， 我 也 想 不 出 还 有 什么 更 好 的 办 法 能 够 让 自己 重 温 这 些 知识 的 
细节 。” 

一 一 Dan Russell， 资 深 技术 经 理 ，Google 


“Toby 的 这 本 书 非 常 成 功 地 将 机 器 学 习 算法 这 一 复杂 的 议题 拆 分 成 了 一 个 个 既 实 用 又 易 懂 的 例子 ， 我 
们 可 以 直接 利用 这 些 例子 来 分 析 当 前 网 络 上 的 社会 化 交互 作用 。 假 如 我 早 两 年 读 过 这 本 书 ， 就 会 省 去 
许多 宝贵 的 时 间 ， 也 不 至 于 走 那么 多 的 弯路 了 。” 

——Tim Wolters, CTO, Collective Intellect 


想 了 解 昔 茂 在 搜索 排名 、 商 品 推荐 、 社 会 化 书签 以 及 在 线 婚介 应 用 背后 的 巨大 威力 吗 ? 本 书 的 内 容 引 
人 人 入 胜 ， 它 将 会 告诉 我 们 如 何 构造 Web 2.0 应 用 ， 使 其 能 够 挖掘 有 大 量 用 户 参 与 的 互联 网 应 用 所 产生 的 
海量 数据 。 利 用 书 中 介绍 的 这 些 复 杂 算法 ， 可 以 编写 出 智能 程序 、 访 问 其 他 Web 站 点 的 数据 集 、 从 我 们 
自己 的 应 用 程序 中 搜集 用 户 数据 ， 进 而 分 析 和 理解 这 些 数据 。 


本 书 将 引领 我 们 进入 机 器 学 习 与 计算 统计 的 世界 ， 并 解释 如 何 得 出 有 关 用 户 体验 、 市 场 营 销 、 个 大 品 
味 以 及 我 们 和 他 人 每 天 搜集 的 用 户 行为 方面 的 结论 。 书 中 对 每 一 个 算法 都 进行 了 详细 的 描述 ， 并 附 以 
简洁 的 代码 ， 这 些 代码 可 以 直接 用 于 我 们 的 Web 站 点 、 博 客 、 维 基 ， 或 者 其 他 特定 的 应 用 。 


本 书 向 读者 介绍 了 : 


。 令 在 线 零售 商 向 用 户 提 供 商 品 或 媒体 推荐 的 协作 型 过 滤 技 术 ， 

。 在 一 个 大 型 数据 集中 检测 相似 项 群 组 的 聚 类 方法 ， 

。 在 针对 某 一 问题 的 数 以 百 万 计 的 可 能 题解 中 进行 搜索 ， 并 从 中 选 出 最 优 解 的 优化 算法 ， 

。 用 于 垃圾 过 滤 技 术 的 贝 叶 斯 过 滤器 ， 如 何 根据 单词 类 型 及 其 他 特征 对 文档 进行 分 类 ， 

。 用 于 对 在 线 约会 站 点 的 用 户 进 行 配对 的 支持 向 量 机 ， 

。 用 于 问题 求解 的 智能 进化 技术 一 一 随 着 玩 游戏 的 次 数 逐 源 增 多 ， 计 算 机 玩家 如 何 通 过 改进 自身 代码 
的 方式 来 发 展 技能 。 

本 书 的 每 一 章 后 都 有 练习 4 这 些 练习 对 算法 进行 了 扩展 ， 使 其 变 得 更 加 强大 。 让 我 们 超越 以 数据 库 为 

后 端的 简单 应 用 系统 ,挖掘 互 联网 数据 的 价值 ， 为 我 所 用 |! 
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